SkillOpt: Keterampilan agen sebagai parameter yang dapat dilatih

Microsoft Research memperkenalkan SkillOpt, sebuah metode yang memperlakukan file keterampilan agen sebagai parameter yang dapat dilatih di luar model target beku, mengubah pengeditan keterampilan manual menjadi proses optimasi terkontrol. Pendekatan ini meningkatkan keandalan dan konsistensi agen tanpa memperbarui bobot model dasar.

SkillOpt mengorganisasikan pengeditan keterampilan sebagai siklus maju-mundur-perbarui di mana model pengoptimal terpisah menyempurnakan keterampilan berdasarkan umpan balik lintasan.
Sistem menggunakan suntingan teks terbatas, gerbang validasi, dan buffer suntingan ditolak untuk mencegah pergeseran prompt yang tidak terkontrol.
Dievaluasi melintasi enam benchmark, tujuh model target, dan tiga mode eksekusi, SkillOpt mencapai hasil terbaik atau setara terbaik di semua 52 sel evaluasi.
Dengan GPT-5.5 dalam mode obrolan langsung, SkillOpt meningkatkan skor benchmark rata-rata dari 58,8 menjadi 82,3, peningkatan absolut sebesar +23,5 poin.
Keterampilan yang dioptimalkan menunjukkan kemampuan transfer melintasi skala model, harness agen, dan tugas terkait, menangkap pengetahuan alur kerja yang dapat digunakan kembali.

Dengan membingkai ulang penulisan keterampilan sebagai proses pelatihan dengan kontrol ukuran langkah dan validasi, SkillOpt mengatasi hambatan evolusi keterampilan yang tidak terkontrol, memungkinkan penyebaran agen AI yang lebih andal di lingkungan produksi.