Os autores apresentam o SkillCoach, um framework que deriva rubricas de processo baseadas em habilidades a partir de rollouts reais para abordar a dificuldade do uso confiável de habilidades em repositórios com habilidades sobrepostas. Ele avalia as trajetórias do agente ao longo de quatro dimensões: seleção de habilidade, seguimento de habilidade, composição de habilidade e reflexão baseada em habilidades.
- O sistema mantém o verificador externo como um sinal de resultado separado, permitindo que a qualidade do processo seja distinguida do sucesso acidental da tarefa.
- Rubricas evolutivas servem como supervisão de processo para selecionar trajetórias de treinamento de alta qualidade.
- Experimentos mostram que rubricas evolutivas melhoram substancialmente a qualidade da avaliação e expõem falhas ocultas pela precisão final.
- O framework fornece sinais de supervisão mais fortes do que o filtramento apenas por resultado para aprimorar o uso de habilidades agênticas.
O SkillCoach permite distinguir a qualidade do processo do sucesso acidental da tarefa, fornecendo sinais de supervisão mais fortes para aprimorar o uso de habilidades agênticas.