Авторы представляют SkillCoach, фреймворк, который выводит обоснованные навыками процессные рубрики из реальных роутов (rollouts), чтобы решить проблему надежного использования навыков в репозиториях с перекрывающимися навыками. Он оценивает траектории агентов по четырем измерениям: выбор навыка, следование навыку, композиция навыка и обоснованная навыками рефлексия.
- Система сохраняет внешний верификатор как отдельный сигнал результата, позволяя отличить качество процесса от случайного успеха задачи.
- Эволюционировавшие рубрики служат процессным надзором для выбора высококачественных обучающих траекторий.
- Эксперименты показывают, что эволюционировавшие рубрики существенно улучшают качество оценки и выявляют ошибки, скрытые финальной точностью.
- Фреймворк обеспечивает более сильные сигналы надзора по сравнению с фильтрацией только по результату для улучшения использования агентных навыков.
SkillCoach позволяет отличить качество процесса от случайного успеха задачи, предоставляя более сильные сигналы надзора для улучшения использования агентных навыков.