숨겨진 시스템 강화로 인해 폐쇄형 모델 벤치마크 격차가 가정된 것보다 작을 수 있음

이 기사는 폐쇄형 모델과 개방형 모델 간의 성능 격차가 과대평가되었을 가능성이 있다고 주장합니다. 이는 벤치마크가 원시 모델 추론과 전체 제품 생태계를 비교하기 때문입니다. 폐쇄형 제공자는 RAG, 프롬프트 전처리, 전문 전문가 모델 등의 백엔드 기술을 통해 이러한 추가 사항을 공개하지 않고도 결과를 크게 향상시킬 수 있습니다.

벤치마크는 종종 GLM의 원시 추론과 Claude의 전체 제품 스위트 간을 비교하여 불공정한 비교를 만듭니다.
제공자는 숨겨진 내부 도구 호출, 문맥 의존 시스템 프롬프트 또는 "클라운카 MoE" 아키텍처를 사용하여 출력을 개선할 수 있습니다.
Anthropic은 이미 추론 트레이스를 은폐하고 전체 대화에 대한 접근을 제한하여 이러한 강화를 숨기고 있습니다.
단일 폐쇄형 모델의 추론 출력이 분리되었을 때 개방형 모델을 실제로 능가하지 않을 수도 있습니다.

저자는 백엔드 처리에 대한 가시성이 없으면 기반 모델의 실제 능력을 정확하게 평가하는 것이 불가능하다고 제안합니다.