В статье утверждается, что разрыв в производительности между закрытыми и открытыми моделями, вероятно, преувеличен, поскольку бенчмарки сравнивают сырой вывод модели с полными продуктовыми экосистемами. Закрытые провайдеры могут значительно улучшать результаты с помощью фоновых техник, таких как RAG, предварительная обработка промптов и специализированные экспертные модели, не раскрывая этих добавлений.

  • Бенчмарки часто сравнивают сырой вывод GLM с полным набором продуктов Claude, создавая несправедливое сравнение.
  • Провайдеры могут использовать скрытые внутренние вызовы инструментов, системные промпты, зависящие от контекста, или архитектуры "clown-car MoE" для улучшения вывода.
  • Anthropic уже скрывает трассировки рассуждений и ограничивает доступ к полным разговорам, скрывая эти улучшения.
  • Возможно, вывод инференса ни одной закрытой модели на самом деле не превосходит открытые модели при изоляции.

Автор предполагает, что без видимости внутренней обработки невозможно точно оценить истинные возможности базовых моделей.