Armin Ronacher는 Anthropic의 최신 Claude 모델, 특히 Opus 4.8과 Sonnet 5가 Pi 코딩 하니스와 상호작용할 때 잘못된 도구 호출을 생성한다고 보고했습니다. 모델은 예상 스키마와 일치하지 않는 추가 필드를 중첩된 편집 배열에 발명하여 Pi가 호출을 거부하게 만듭니다.
- Opus 4.8과 Sonnet 5와 같은 최신 SOTA 모델은 이 회귀 현상을 보이지만, 구형 모델은 그렇지 않습니다.
- 이 문제는 모델이 Claude Code의 내장 편집 도구를 사용하도록 훈련되었기 때문에 발생하며, 이는 서드파티 하니스와의 호환성을 해칩니다.
- 이는 효과적인 도구 사용을 위해 설계된 다른 apply_patch 메커니즘을 사용하는 OpenAI의 Codex와 대조됩니다.
이 기사는 서드파티 코딩 하니스가 다양한 기본 모델 전반에 걸쳐 올바른 성능을 보장하기 위해 여러 편집 도구를 구현해야 할 수 있다고 제안합니다.