lab Microsoft Research Blog · 3 小时前 · research

SkillOpt：将智能体技能作为可训练参数

译自 English → 中文

微软研究院推出了SkillOpt，该方法将智能体技能文件视为冻结目标模型之外的可训练参数，将手动技能编辑转化为受控的优化过程。这种方法在不更新底层模型权重的情况下提高了智能体的可靠性和一致性。

SkillOpt将技能编辑组织为前向-后向-更新循环，其中单独的优化器模型根据轨迹反馈精炼技能。
该系统使用有界文本编辑、验证门控和拒绝编辑缓冲区来防止不受控制的提示漂移。
在六个基准测试、七个目标模型和三种执行模式下进行评估，SkillOpt在所有52个评估单元格中取得了最佳或并列最佳的结果。
在与GPT-5.5的直接聊天模式下，SkillOpt将平均基准分数从58.8提高到82.3，实现了+23.5分的绝对提升。
优化的技能展示了跨模型规模、智能体框架和相关任务的迁移能力，捕获了可重用的工作流知识。

通过将技能编写重新定义为具有步长控制和验证的训练过程，SkillOpt解决了技能演化失控的障碍，使得AI智能体在生产环境中的部署更加可靠。

重要性 2/3 具有差异化优势的新评测框架可信度 3/3 Microsoft Research Blog Microsoft Research AI agents Training methods