Los autores presentan SkillCoach, un marco que deriva rúbricas de proceso basadas en habilidades a partir de rollouts reales para abordar la dificultad del uso fiable de habilidades en repositorios con habilidades superpuestas. Evalúa las trayectorias del agente a lo largo de cuatro dimensiones: selección de habilidad, seguimiento de habilidad, composición de habilidad y reflexión basada en habilidades.
- El sistema mantiene el verificador externo como una señal de resultado separada, permitiendo distinguir la calidad del proceso del éxito accidental de la tarea.
- Las rúbricas evolucionadas sirven como supervisión de proceso para seleccionar trayectorias de entrenamiento de alta calidad.
- Los experimentos muestran que las rúbricas evolucionadas mejoran sustancialmente la calidad de la evaluación y exponen fallos ocultos por la precisión final.
- El marco proporciona señales de supervisión más fuertes que el filtrado solo por resultado para mejorar el uso de habilidades agénticas.
SkillCoach permite distinguir la calidad del proceso del éxito accidental de la tarea, proporcionando señales de supervisión más fuertes para mejorar el uso de habilidades agénticas.