著者らはSkillCoachを紹介する。これは、重複するスキルを持つリポジトリにおける信頼できるスキル活用の難しさを解決するため、実際のロールアウトからスキルに根ざしたプロセス用ルーブリックを導出するフレームワークである。エージェントの軌跡を4つの次元で評価する:スキルの選択、スキルの遵守、スキルの組み合わせ、およびスキルに根ざした反射。
- システムは外部検証子を独立した結果信号として維持し、プロセスの品質と偶発的なタスク成功を区別可能にする。
- 進化型ルーブリックは、高品質なトレーニング軌跡の選択に対してプロセス監督として機能する。
- 実験により、進化型ルーブリックが評価品質を大幅に向上させ、最終精度によって隠された失敗を明らかにすることが示された。
- このフレームワークは、エージェントのスキル活用を強化するための結果のみによるフィルタリングよりも強力な監督信号を提供する。
SkillCoachは、プロセスの品質と偶発的なタスク成功を区別可能にし、エージェントのスキル活用を強化するためのより強力な監督信号を提供する。