作者引入了 SkillCoach,这是一个框架,它从真实 rollout 中导出基于技能的流程评分标准,以解决在具有重叠技能的存储库中可靠使用技能的困难。它沿四个维度评估代理轨迹:技能选择、技能遵循、技能组合和基于技能的反思。

  • 系统将外部验证器保持为独立的结果信号,从而将流程质量与偶然任务成功区分开来。
  • 演化后的评分标准作为选择高质量训练轨迹的流程监督。
  • 实验表明,演化后的评分标准显著提高了评估质量,并暴露了由最终准确性隐藏的失败。
  • 该框架提供了比仅基于结果过滤更强的监督信号,以增强代理技能使用。

SkillCoach 允许将流程质量与偶然任务成功区分开来,为增强代理技能使用提供更强的监督信号。