Kesenjangan benchmark model tertutup mungkin lebih kecil dari yang diasumsikan karena peningkatan sistem tersembunyi

Artikel tersebut berargumen bahwa kesenjangan kinerja antara model tertutup dan terbuka kemungkinan besar dilebih-lebihkan karena benchmark membandingkan inferensi model mentah dengan ekosistem produk lengkap. Penyedia tertutup dapat secara signifikan meningkatkan hasil melalui teknik backend seperti RAG, pra-pemrosesan prompt, dan model ahli khusus tanpa mengungkapkan penambahan ini.

Benchmark sering membandingkan inferensi mentah GLM dengan seluruh suite produk Claude, menciptakan perbandingan yang tidak adil.
Penyedia mungkin menggunakan panggilan alat internal tersembunyi, prompt sistem tergantung konteks, atau arsitektur "clown-car MoE" untuk meningkatkan output.
Anthropic sudah menyembunyikan jejak penalaran dan membatasi akses ke percakapan lengkap, mengaburkan peningkatan ini.
Mungkin saja tidak ada output inferensi model tertutup tunggal yang benar-benar mengalahkan model terbuka ketika diisolasi.

Penulis menyarankan bahwa tanpa visibilitas ke pemrosesan backend, mustahil untuk menilai kemampuan sebenarnya dari model dasar secara akurat.