O artigo argumenta que a lacuna de desempenho entre modelos fechados e abertos provavelmente está exagerada, pois os benchmarks comparam a inferência bruta do modelo com ecossistemas completos de produtos. Provedores fechados podem impulsionar significativamente os resultados por meio de técnicas de backend como RAG, pré-processamento de prompts e modelos especialistas especializados sem revelar essas adições.

  • Os benchmarks frequentemente comparam a inferência bruta do GLM com toda a suíte de produtos da Claude, criando uma comparação injusta.
  • Os provedores podem usar chamadas internas ocultas de ferramentas, prompts de sistema dependentes do contexto ou arquiteturas "clown-car MoE" para melhorar a saída.
  • A Anthropic já oculta os rastros de raciocínio e restringe o acesso às conversas completas, obscurecendo essas melhorias.
  • É possível que a saída de inferência de nenhum modelo fechado individual realmente supere os modelos abertos quando isolados.

O autor sugere que, sem visibilidade do processamento do backend, é impossível avaliar com precisão as capacidades verdadeiras dos modelos subjacentes.