В статье утверждается, что разрыв в производительности между закрытыми и открытыми моделями, вероятно, преувеличен, поскольку бенчмарки сравнивают сырой вывод модели с полными продуктовыми экосистемами. Закрытые провайдеры могут значительно улучшать результаты с помощью фоновых техник, таких как RAG, предварительная обработка промптов и специализированные экспертные модели, не раскрывая этих добавлений.
- Бенчмарки часто сравнивают сырой вывод GLM с полным набором продуктов Claude, создавая несправедливое сравнение.
- Провайдеры могут использовать скрытые внутренние вызовы инструментов, системные промпты, зависящие от контекста, или архитектуры "clown-car MoE" для улучшения вывода.
- Anthropic уже скрывает трассировки рассуждений и ограничивает доступ к полным разговорам, скрывая эти улучшения.
- Возможно, вывод инференса ни одной закрытой модели на самом деле не превосходит открытые модели при изоляции.
Автор предполагает, что без видимости внутренней обработки невозможно точно оценить истинные возможности базовых моделей.