저자들은 SkillCoach를 소개합니다. 이는 중복된 기술을 가진 저장소에서 신뢰할 수 있는 기술 활용의 어려움을 해결하기 위해 실제 롤아웃에서 기술 기반 프로세스 루브릭을 도출하는 프레임워크입니다. 에이전트 궤적을 네 가지 차원에서 평가합니다: 기술 선택, 기술 준수, 기술 조합, 및 기술 기반 성찰.
- 시스템은 외부 검증자를 별도의 결과 신호로 유지하여 프로세스 품질과 우연한 작업 성공을 구분할 수 있게 합니다.
- 진화한 루브릭은 고품질 학습 궤적을 선택하기 위한 프로세스 감독으로 작용합니다.
- 실험 결과, 진화한 루브릭이 평가 품질을 크게 향상시키고 최종 정확도에 의해 숨겨진 실패를 드러내는 것으로 나타났습니다.
- 이 프레임워크는 에이전트 기술 활용을 강화하기 위해 결과만 필터링하는 것보다 더 강력한 감독 신호를 제공합니다.
SkillCoach는 프로세스 품질과 우연한 작업 성공을 구분할 수 있게 하며, 에이전트 기술 활용을 강화하기 위한 더 강력한 감독 신호를 제공합니다.