Разрывы в результатах закрытых моделей могут быть меньше, чем предполагалось, из-за скрытых системных улучшений

В статье утверждается, что разрыв в производительности между закрытыми и открытыми моделями, вероятно, преувеличен, поскольку бенчмарки сравнивают сырой вывод модели с полными продуктовыми экосистемами. Закрытые провайдеры могут значительно улучшать результаты с помощью фоновых техник, таких как RAG, предварительная обработка промптов и специализированные экспертные модели, не раскрывая этих добавлений.

Бенчмарки часто сравнивают сырой вывод GLM с полным набором продуктов Claude, создавая несправедливое сравнение.
Провайдеры могут использовать скрытые внутренние вызовы инструментов, системные промпты, зависящие от контекста, или архитектуры "clown-car MoE" для улучшения вывода.
Anthropic уже скрывает трассировки рассуждений и ограничивает доступ к полным разговорам, скрывая эти улучшения.
Возможно, вывод инференса ни одной закрытой модели на самом деле не превосходит открытые модели при изоляции.

Автор предполагает, что без видимости внутренней обработки невозможно точно оценить истинные возможности базовых моделей.