Las brechas en benchmarks de modelos cerrados pueden ser menores de lo asumido debido a mejoras ocultas del sistema

El artículo argumenta que la brecha de rendimiento entre modelos cerrados y abiertos probablemente está exagerada porque los benchmarks comparan la inferencia cruda del modelo con ecosistemas completos de productos. Los proveedores cerrados pueden impulsar significativamente los resultados mediante técnicas de backend como RAG, preprocesamiento de prompts y modelos expertos especializados sin revelar estas adiciones.

Los benchmarks a menudo comparan la inferencia cruda de GLM con toda la suite de productos de Claude, creando una comparación injusta.
Los proveedores pueden usar llamadas internas ocultas de herramientas, prompts de sistema dependientes del contexto o arquitecturas "clown-car MoE" para mejorar la salida.
Anthropic ya oculta los rastros de razonamiento y restringe el acceso a conversaciones completas, oscureciendo estas mejoras.
Es posible que la salida de inferencia de ningún modelo cerrado individual realmente supere a los modelos abiertos cuando se aísla.

El autor sugiere que sin visibilidad sobre el procesamiento del backend, es imposible evaluar con precisión las verdaderas capacidades de los modelos subyacentes.