Optimización de habilidades impulsada por hipótesis para agentes LLM
HDSO permite actualizaciones de habilidades seguras y auditables para agentes LLM sin entrenamiento, utilizando hipótesis falsables y validación. En ALFWorld, mejora a Qwen3-8B en +6.9 puntos de SR promedio y mantiene una ganancia de +7.1 puntos bajo retroalimentación ruidosa, con habilidades validadas transferibles entre ejecuciones y modelos cuando se logra la alineación diagnóstica.