O artigo argumenta que a lacuna de desempenho entre modelos fechados e abertos provavelmente está exagerada, pois os benchmarks comparam a inferência bruta do modelo com ecossistemas completos de produtos. Provedores fechados podem impulsionar significativamente os resultados por meio de técnicas de backend como RAG, pré-processamento de prompts e modelos especialistas especializados sem revelar essas adições.
- Os benchmarks frequentemente comparam a inferência bruta do GLM com toda a suíte de produtos da Claude, criando uma comparação injusta.
- Os provedores podem usar chamadas internas ocultas de ferramentas, prompts de sistema dependentes do contexto ou arquiteturas "clown-car MoE" para melhorar a saída.
- A Anthropic já oculta os rastros de raciocínio e restringe o acesso às conversas completas, obscurecendo essas melhorias.
- É possível que a saída de inferência de nenhum modelo fechado individual realmente supere os modelos abertos quando isolados.
O autor sugere que, sem visibilidade do processamento do backend, é impossível avaliar com precisão as capacidades verdadeiras dos modelos subjacentes.