SkillOpt: Навыки агентов как обучаемые параметры

Microsoft Research представляет SkillOpt — метод, который рассматривает файлы навыков агента как обучаемые параметры вне замороженной целевой модели, превращая ручное редактирование навыков в контролируемый процесс оптимизации. Этот подход повышает надежность и согласованность работы агентов без обновления весов базовой модели.

SkillOpt организует редактирование навыков как цикл прямого/обратного распространения с обновлением, где отдельная модель-оптимизатор уточняет навыки на основе обратной связи по траекториям.
Система использует ограниченные текстовые правки, валидационные фильтры и буферы отклоненных правок для предотвращения неконтролируемого дрейфа промптов.
Оценка проводилась на шести бенчмарках, семи целевых моделях и трех режимах выполнения; SkillOpt показал лучшие или равные лучшим результаты во всех 52 ячейках оценки.
В режиме прямого чата с GPT-5.5 SkillOpt увеличил средний балл по бенчмаркам с 58.8 до 82.3, что составляет абсолютное улучшение на +23.5 пункта.
Оптимизированные навыки демонстрируют переносимость между масштабами моделей, агентами-обвязками и смежными задачами, захватывая переиспользуемые знания рабочих процессов.

Переосмысливая написание навыков как процесс обучения с контролем шага и валидацией, SkillOpt решает проблему неконтролируемой эволюции навыков, обеспечивая более надежное развертывание ИИ-агентов в производственных средах.