隠れたシステム強化のため、クローズドモデルのベンチマーク格差は想定より小さい可能性がある

記事は、クローズドモデルとオープンモデルのパフォーマンス格差が過大評価されている可能性があると主張しています。これは、ベンチマークが生モデル推論と完全な製品エコシステムの比較を行っているためです。クローズドプロバイダーは、RAG、プロンプト前処理、専門的なエクスパートモデルなどのバックエンド技術を通じて、これらの追加情報を明らかにすることなく結果を大幅に向上させることができます。

ベンチマークでは、GLMの生推論とClaudeの製品スイート全体が比較され、不公平な比較が生じています。
プロバイダーは、隠れた内部ツール呼び出し、文脈依存のシステムプロンプト、または「クラウンカーMoE」アーキテクチャを使用して出力を改善する可能性があります。
Anthropicはすでに推論トレースを非表示にし、完全な会話へのアクセスを制限しており、これらの強化を隠蔽しています。
単一のクローズドモデルの推論出力が、分離された状態でオープンモデルを上回ることはない可能性もあります。

著者は、バックエンド処理への可視性がない場合、基盤となるモデルの真の能力を正確に評価することは不可能であると示唆しています。