SkillOpt: مهارات الوكيل كمعاملات قابلة للتدريب

تقدم Microsoft Research أسلوب SkillOpt، الذي يعامل ملفات مهارات الوكيل كمعاملات قابلة للتدريب خارج نموذج هدف ثابت، محوّلًا التعديل اليدوي للمهارات إلى عملية تحسين خاضعة للرقابة. يحسّن هذا النهج موثوقية الوكيل واتساقه دون تحديث أوزان النموذج الأساسي.

ينظم SkillOpt تعديل المهارات كدورة تقدم-رجوع-تحديث حيث يقوم نموذج مُحسِّن منفصل بتحسين المهارات بناءً على ملاحظات المسار.
يستخدم النظام تعديلات نصية محدودة، وبوابات تحقق، ومخازن للتعديلات المرفوضة لمنع الانحراف غير الخاضع للرقابة في المطالبات.
تم تقييمه عبر ستة معايير قياس، وسبعة نماذج هدف، وثلاثة أوضاع تنفيذ، حيث حقق SkillOpt أفضل النتائج أو نتائج متعادلة مع الأفضل في جميع خلايا التقييم الـ 52.
مع GPT-5.5 في وضع الدردشة المباشر، زاد SkillOpt متوسط درجة المعيار من 58.8 إلى 82.3، أي تحسن مطلق قدره +23.5 نقطة.
تُظهر المهارات المُحسَّنة قابلية للنقل عبر مقاييس النماذج، وأطر عمل الوكلاء، والمهام ذات الصلة، مما يلتقط معرفة سير العمل القابلة لإعادة الاستخدام.

من خلال إعادة صياغة كتابة المهارات كعملية تدريب مع التحكم في حجم الخطوة والتحقق، يعالج SkillOpt عقبة التطور غير الخاضع للرقابة للمهارات، مما يتيح نشرًا أكثر موثوقية لوكلاء الذكاء الاصطناعي في بيئات الإنتاج.