Diseño de arneses y post-entrenamiento en agentes LLM

El artículo examina cómo el diseño del arnés de herramientas impacta el post-entrenamiento de agentes de modelos de lenguaje grandes. Argumenta que, aunque los agentes se someten rutinariamente a post-entrenamiento, la estructura que determina la exposición a las herramientas suele tratarse como un detalle fijo. Los algoritmos existentes asumen típicamente entornos estáticos, ignorando los cambios en las herramientas y tareas durante el despliegue. Para abordar esta brecha, los autores extendieron ALFWorld para tratar el diseño del arnés como una dimensión controlable. Esta extensión permite la evaluación bajo cambios tanto en la tarea como en el entorno de herramientas. El estudio analiza sistemáticamente la influencia del arnés en el post-entrenamiento en configuraciones dentro y fuera de la distribución. Los resultados muestran que el post-entrenamiento consciente del arnés mejora el rendimiento y permite una adaptación robusta a nuevos entornos. Por el contrario, un esfuerzo mínimo de diseño conduce a caídas drásticas del rendimiento bajo cambios ambientales fuertes.