SkillOpt: Habilidades de agente como parámetros entrenables

Microsoft Research presenta SkillOpt, un método que trata los archivos de habilidades del agente como parámetros entrenables fuera de un modelo objetivo congelado, transformando la edición manual de habilidades en un proceso de optimización controlada. Este enfoque mejora la fiabilidad y consistencia del agente sin actualizar los pesos del modelo subyacente.

SkillOpt organiza la edición de habilidades como un ciclo de actualización hacia adelante y hacia atrás donde un modelo optimizador separado refina las habilidades basándose en retroalimentación de trayectoria.
El sistema utiliza ediciones de texto acotadas, validación por compuerta y búferes de ediciones rechazadas para prevenir la deriva no controlada del prompt.
Evaluado en seis benchmarks, siete modelos objetivo y tres modos de ejecución, SkillOpt logró los mejores resultados o empató con los mejores en todas las 52 celdas de evaluación.
Con GPT-5.5 en modo de chat directo, SkillOpt aumentó la puntuación promedio del benchmark de 58.8 a 82.3, una mejora absoluta de +23.5 puntos.
Las habilidades optimizadas demuestran transferibilidad entre escalas de modelos, harnesses de agentes y tareas relacionadas, capturando conocimiento de flujo de trabajo reutilizable.

Al reformular la escritura de habilidades como un proceso de entrenamiento con control de tamaño de paso y validación, SkillOpt aborda el obstáculo de la evolución no controlada de las habilidades, permitiendo un despliegue más fiable de agentes de IA en entornos de producción.