Para penulis memperkenalkan SkillCoach, sebuah kerangka kerja yang menurunkan rubrik proses berbasis keterampilan dari rollouts nyata untuk mengatasi kesulitan penggunaan keterampilan yang andal di repositori dengan keterampilan yang tumpang tindih. Sistem ini mengevaluasi lintasan agen sepanjang empat dimensi: pemilihan keterampilan, kepatuhan terhadap keterampilan, komposisi keterampilan, dan refleksi berbasis keterampilan.
- Sistem mempertahankan verifier eksternal sebagai sinyal hasil terpisah, memungkinkan kualitas proses dibedakan dari keberhasilan tugas kebetulan.
- Rubrik yang berevolusi berfungsi sebagai pengawasan proses untuk memilih lintasan pelatihan berkualitas tinggi.
- Eksperimen menunjukkan bahwa rubrik yang berevolusi secara substansial meningkatkan kualitas evaluasi dan mengungkap kegagalan yang tersembunyi oleh akurasi akhir.
- Kerangka kerja ini memberikan sinyal pengawasan yang lebih kuat daripada pemfilteran hanya berdasarkan hasil untuk meningkatkan penggunaan keterampilan agentic.
SkillCoach memungkinkan kualitas proses dibedakan dari keberhasilan tugas kebetulan, memberikan sinyal pengawasan yang lebih kuat untuk meningkatkan penggunaan keterampilan agentic.