Les auteurs présentent SkillCoach, un cadre qui dérive des rubriques de processus ancrées sur les compétences à partir de rollouts réels pour répondre à la difficulté d'une utilisation fiable des compétences dans des dépôts avec des compétences chevauchantes. Il évalue les trajectoires des agents selon quatre dimensions : sélection de la compétence, suivi de la compétence, composition de la compétence et réflexion ancrée sur la compétence.

  • Le système maintient le vérificateur externe comme un signal de résultat distinct, permettant de distinguer la qualité du processus d'un succès accidentel de la tâche.
  • Les rubriques évoluées servent de supervision de processus pour sélectionner des trajectoires d'entraînement de haute qualité.
  • Les expériences montrent que les rubriques évoluées améliorent considérablement la qualité de l'évaluation et révèlent des échecs cachés par la précision finale.
  • Le cadre fournit des signaux de supervision plus forts que le filtrage basé uniquement sur le résultat pour améliorer l'utilisation des compétences par les agents.

SkillCoach permet de distinguer la qualité du processus d'un succès accidentel de la tâche, fournissant des signaux de supervision plus forts pour améliorer l'utilisation des compétences par les agents.