SkillOpt: エージェントのスキルをトレーニング可能なパラメータとして扱う

Microsoft Researchは、エージェントのスキルファイルを凍結されたターゲットモデルの外側でトレーニング可能なパラメータとして扱い、手動のスキル編集を制御された最適化プロセスに変換する手法「SkillOpt」を紹介します。このアプローチは、基盤となるモデルの重みを更新することなく、エージェントの信頼性と一貫性を向上させます。

SkillOptは、スキルの編集をフォワード・バックワード・アップデートサイクルとして整理し、別のオプティマイザーモデルが軌跡フィードバックに基づいてスキルを洗練します。
システムは、制限されたテキスト編集、検証ゲート、拒否済み編集バッファを使用して、制御不能なプロンプトのドリフトを防ぎます。
6つのベンチマーク、7つのターゲットモデル、3つの実行モードで評価され、SkillOptは52の評価セルすべてで最高の結果または同率最高結果を達成しました。
GPT-5.5をダイレクトチャットモードで使用した場合、SkillOptは平均ベンチマークスコアを58.8から82.3に引き上げ、絶対値で+23.5ポイントの改善を実現しました。
最適化されたスキルは、モデルスケール、エージェントハーネス、関連タスク間で転移可能であり、再利用可能なワークフロー知識を捉えています。

ステップサイズ制御と検証を備えたトレーニングプロセスとしてスキル記述を再構成することで、SkillOptは制御不能なスキルの進化という障害に対処し、本番環境でのAIエージェントのより信頼性の高いデプロイメントを可能にします。