Microsoft Research ने SkillOpt पेश किया है, एक विधि जो एजेंट कौशल फ़ाइलों को एक फ्रोजन टारगेट मॉडल के बाहर प्रशिक्षणीय पैरामीटर के रूप में मानती है, जिससे मैनुअल कौशल संपादन को नियंत्रित अनुकूलन प्रक्रिया में बदल दिया जाता है। यह दृष्टिकोण अंतर्निहित मॉडल वजन को अपडेट किए बिना एजेंट की विश्वसनीयता और स्थिरता को बढ़ावा देता है।
- SkillOpt कौशल संपादन को एक फॉरवर्ड-बैकवर्ड-अपडेट चक्र के रूप में व्यवस्थित करता है, जहां एक अलग ऑप्टिमाइजर मॉडल ट्राजेक्टरी फीडबैक के आधार पर कौशल को परिष्कृत करता है।
- सिस्टम अनियंत्रित प्रॉम्प्ट ड्रिफ्ट को रोकने के लिए बाउंडेड टेक्स्ट एडिट्स, वैलिडेशन गेटिंग और रिजेक्टेड-एडिट बफर्स का उपयोग करता है।
- छह बेंचमार्क्स, सात टारगेट मॉडल और तीन एक्जीक्यूशन मोड पर मूल्यांकन करने के बाद, SkillOpt ने सभी 52 मूल्यांकन सेल्स में सर्वश्रेष्ठ या बराबर-सर्वश्रेष्ठ परिणाम हासिल किए।
- सीधे चैट मोड में GPT-5.5 के साथ, SkillOpt ने औसत बेंचमार्क स्कोर को 58.8 से बढ़ाकर 82.3 कर दिया, जो +23.5-पॉइंट का निरंतर सुधार है।
- अनुकूलित कौशल मॉडल स्केल, एजेंट हार्नेस और संबंधित कार्यों के पार स्थानांतरणीयता प्रदर्शित करते हैं, जिसमें पुनः उपयोग योग्य वर्कफ़्लो ज्ञान शामिल है।
चरण-आकार नियंत्रण और वैलिडेशन के साथ एक प्रशिक्षण प्रक्रिया के रूप में कौशल लेखन को फिर से परिभाषित करके, SkillOpt अनियंत्रित कौशल विकास की बाधा को दूर करता है, जिससे उत्पादन वातावरण में AI एजेंटों का अधिक निर्भरतापूर्ण तैनाती संभव होता है।