As lacunas em benchmarks de modelos fechados podem ser menores do que o assumido devido a melhorias ocultas no sistema

O artigo argumenta que a lacuna de desempenho entre modelos fechados e abertos provavelmente está exagerada, pois os benchmarks comparam a inferência bruta do modelo com ecossistemas completos de produtos. Provedores fechados podem impulsionar significativamente os resultados por meio de técnicas de backend como RAG, pré-processamento de prompts e modelos especialistas especializados sem revelar essas adições.

Os benchmarks frequentemente comparam a inferência bruta do GLM com toda a suíte de produtos da Claude, criando uma comparação injusta.
Os provedores podem usar chamadas internas ocultas de ferramentas, prompts de sistema dependentes do contexto ou arquiteturas "clown-car MoE" para melhorar a saída.
A Anthropic já oculta os rastros de raciocínio e restringe o acesso às conversas completas, obscurecendo essas melhorias.
É possível que a saída de inferência de nenhum modelo fechado individual realmente supere os modelos abertos quando isolados.

O autor sugere que, sem visibilidade do processamento do backend, é impossível avaliar com precisão as capacidades verdadeiras dos modelos subjacentes.