SkillOpt : Les compétences des agents comme paramètres entraînables

Microsoft Research présente SkillOpt, une méthode qui traite les fichiers de compétences des agents comme des paramètres entraînables en dehors d'un modèle cible figé, transformant l'édition manuelle des compétences en un processus d'optimisation contrôlé. Cette approche améliore la fiabilité et la cohérence des agents sans mettre à jour les poids du modèle sous-jacent.

SkillOpt organise l'édition des compétences comme un cycle avant-arrière-mise à jour où un modèle optimiseur distinct affine les compétences sur la base de la rétroaction de trajectoire.
Le système utilise des modifications de texte bornées, une validation par gâchette et des tampons de modifications rejetées pour empêcher une dérive non contrôlée des invites.
Évalué sur six benchmarks, sept modèles cibles et trois modes d'exécution, SkillOpt a obtenu les meilleurs résultats ou égalé le meilleur dans les 52 cellules d'évaluation.
Avec GPT-5.5 en mode chat direct, SkillOpt a augmenté le score moyen du benchmark de 58,8 à 82,3, soit une amélioration absolue de +23,5 points.
Les compétences optimisées démontrent une transférabilité à travers les échelles de modèles, les harnais d'agents et les tâches connexes, capturant des connaissances de flux de travail réutilisables.

En redéfinissant l'écriture des compétences comme un processus d'entraînement avec contrôle de la taille du pas et validation, SkillOpt adresse l'obstacle de l'évolution non contrôlée des compétences, permettant un déploiement plus fiable des agents IA dans des environnements de production.