SkillOpt: 에이전트 스킬을 학습 가능한 파라미터로

Microsoft Research는 SkillOpt를 소개합니다. 이는 에이전트 스킬 파일을 동결된 대상 모델 외부의 학습 가능한 파라미터로 취급하여, 수동 스킬 편집을 제어된 최적화 프로세스로 전환하는 방법입니다. 이 접근 방식은 기본 모델 가중치를 업데이트하지 않고도 에이전트의 신뢰성과 일관성을 향상시킵니다.

SkillOpt는 별도의 옵티마이저 모델이 트래젝토리 피드백에 기반하여 스킬을 정제하는 순방향-역방향-업데이트 사이클로 스킬 편집을 구성합니다.
이 시스템은 제한된 텍스트 편집, 검증 게이트 및 거부된 편집 버퍼를 사용하여 통제되지 않은 프롬프트 드리프트를 방지합니다.
6개의 벤치마크, 7개의 대상 모델, 3가지 실행 모드에서 평가된 SkillOpt는 모든 52개 평가 셀에서 최고 또는 동점 최고 결과를 달성했습니다.
직접 채팅 모드에서 GPT-5.5와 함께 사용할 때, SkillOpt는 평균 벤치마크 점수를 58.8에서 82.3으로 높여 +23.5점의 절대적 개선을 이루었습니다.
최적화된 스킬은 모델 규모, 에이전트 하니스 및 관련 작업 간 전이 가능성을 보여주며, 재사용 가능한 워크플로우 지식을 포착합니다.

스킬 작성을 단계 크기 제어와 검증을 갖춘 학습 프로세스로 재구성함으로써, SkillOpt는 통제되지 않은 스킬 진화의 장벽을 해결하여 생산 환경에서 AI 에이전트의 더 신뢰할 수 있는 배포를 가능하게 합니다.