SkillOpt: एजेंट कौशल को प्रशिक्षणीय पैरामीटर के रूप में

Microsoft Research ने SkillOpt पेश किया है, एक विधि जो एजेंट कौशल फ़ाइलों को एक फ्रोजन टारगेट मॉडल के बाहर प्रशिक्षणीय पैरामीटर के रूप में मानती है, जिससे मैनुअल कौशल संपादन को नियंत्रित अनुकूलन प्रक्रिया में बदल दिया जाता है। यह दृष्टिकोण अंतर्निहित मॉडल वजन को अपडेट किए बिना एजेंट की विश्वसनीयता और स्थिरता को बढ़ावा देता है।

SkillOpt कौशल संपादन को एक फॉरवर्ड-बैकवर्ड-अपडेट चक्र के रूप में व्यवस्थित करता है, जहां एक अलग ऑप्टिमाइजर मॉडल ट्राजेक्टरी फीडबैक के आधार पर कौशल को परिष्कृत करता है।
सिस्टम अनियंत्रित प्रॉम्प्ट ड्रिफ्ट को रोकने के लिए बाउंडेड टेक्स्ट एडिट्स, वैलिडेशन गेटिंग और रिजेक्टेड-एडिट बफर्स का उपयोग करता है।
छह बेंचमार्क्स, सात टारगेट मॉडल और तीन एक्जीक्यूशन मोड पर मूल्यांकन करने के बाद, SkillOpt ने सभी 52 मूल्यांकन सेल्स में सर्वश्रेष्ठ या बराबर-सर्वश्रेष्ठ परिणाम हासिल किए।
सीधे चैट मोड में GPT-5.5 के साथ, SkillOpt ने औसत बेंचमार्क स्कोर को 58.8 से बढ़ाकर 82.3 कर दिया, जो +23.5-पॉइंट का निरंतर सुधार है।
अनुकूलित कौशल मॉडल स्केल, एजेंट हार्नेस और संबंधित कार्यों के पार स्थानांतरणीयता प्रदर्शित करते हैं, जिसमें पुनः उपयोग योग्य वर्कफ़्लो ज्ञान शामिल है।

चरण-आकार नियंत्रण और वैलिडेशन के साथ एक प्रशिक्षण प्रक्रिया के रूप में कौशल लेखन को फिर से परिभाषित करके, SkillOpt अनियंत्रित कौशल विकास की बाधा को दूर करता है, जिससे उत्पादन वातावरण में AI एजेंटों का अधिक निर्भरतापूर्ण तैनाती संभव होता है।