Microsoft Research는 SkillOpt를 소개합니다. 이는 에이전트 스킬 파일을 동결된 대상 모델 외부의 학습 가능한 파라미터로 취급하여, 수동 스킬 편집을 제어된 최적화 프로세스로 전환하는 방법입니다. 이 접근 방식은 기본 모델 가중치를 업데이트하지 않고도 에이전트의 신뢰성과 일관성을 향상시킵니다.

  • SkillOpt는 별도의 옵티마이저 모델이 트래젝토리 피드백에 기반하여 스킬을 정제하는 순방향-역방향-업데이트 사이클로 스킬 편집을 구성합니다.
  • 이 시스템은 제한된 텍스트 편집, 검증 게이트 및 거부된 편집 버퍼를 사용하여 통제되지 않은 프롬프트 드리프트를 방지합니다.
  • 6개의 벤치마크, 7개의 대상 모델, 3가지 실행 모드에서 평가된 SkillOpt는 모든 52개 평가 셀에서 최고 또는 동점 최고 결과를 달성했습니다.
  • 직접 채팅 모드에서 GPT-5.5와 함께 사용할 때, SkillOpt는 평균 벤치마크 점수를 58.8에서 82.3으로 높여 +23.5점의 절대적 개선을 이루었습니다.
  • 최적화된 스킬은 모델 규모, 에이전트 하니스 및 관련 작업 간 전이 가능성을 보여주며, 재사용 가능한 워크플로우 지식을 포착합니다.

스킬 작성을 단계 크기 제어와 검증을 갖춘 학습 프로세스로 재구성함으로써, SkillOpt는 통제되지 않은 스킬 진화의 장벽을 해결하여 생산 환경에서 AI 에이전트의 더 신뢰할 수 있는 배포를 가능하게 합니다.