Les écarts de benchmark des modèles fermés peuvent être inférieurs aux attentes en raison d'améliorations système cachées

L'article soutient que l'écart de performance entre les modèles fermés et ouverts est probablement surestimé car les benchmarks comparent l'inférence brute du modèle à des écosystèmes produits complets. Les fournisseurs fermés peuvent considérablement améliorer les résultats grâce à des techniques backend comme le RAG, le prétraitement des prompts et des modèles experts spécialisés sans révéler ces ajouts.

Les benchmarks comparent souvent l'inférence brute de GLM avec la suite complète de produits de Claude, créant une comparaison injuste.
Les fournisseurs peuvent utiliser des appels d'outils internes cachés, des prompts système dépendants du contexte ou des architectures « clown-car MoE » pour améliorer les sorties.
Anthropic a déjà masqué les traces de raisonnement et restreint l'accès aux conversations complètes, obscurcissant ces améliorations.
Il est possible qu'aucune sortie d'inférence d'un modèle fermé unique ne batte réellement les modèles ouverts lorsqu'elle est isolée.

L'auteur suggère que sans visibilité sur le traitement backend, il est impossible d'évaluer avec précision les capacités réelles des modèles sous-jacents.