Artikel tersebut berargumen bahwa kesenjangan kinerja antara model tertutup dan terbuka kemungkinan besar dilebih-lebihkan karena benchmark membandingkan inferensi model mentah dengan ekosistem produk lengkap. Penyedia tertutup dapat secara signifikan meningkatkan hasil melalui teknik backend seperti RAG, pra-pemrosesan prompt, dan model ahli khusus tanpa mengungkapkan penambahan ini.

  • Benchmark sering membandingkan inferensi mentah GLM dengan seluruh suite produk Claude, menciptakan perbandingan yang tidak adil.
  • Penyedia mungkin menggunakan panggilan alat internal tersembunyi, prompt sistem tergantung konteks, atau arsitektur "clown-car MoE" untuk meningkatkan output.
  • Anthropic sudah menyembunyikan jejak penalaran dan membatasi akses ke percakapan lengkap, mengaburkan peningkatan ini.
  • Mungkin saja tidak ada output inferensi model tertutup tunggal yang benar-benar mengalahkan model terbuka ketika diisolasi.

Penulis menyarankan bahwa tanpa visibilitas ke pemrosesan backend, mustahil untuk menilai kemampuan sebenarnya dari model dasar secara akurat.