Пользователи ставят под сомнение существование рейтингов закрытых и открытых LLM и ценность моделей на 70B–350B параметров

Пользователь Reddit спрашивает, существует ли надежный рейтинг, который сравнивает закрытые модели с открытыми весами в одном ряду. Он отмечает, что большинство доступных бенчмарков кажутся фрагментированными и не учитывают практические различия между запуском моделей локально и использованием API-сервисов.

Пользователь ищет четкое сравнение локальных моделей с открытыми весами и конкурентоспособных моделей, доступных только через API.
Он интересуется, есть ли среди открытых моделей те, что соответствуют производительности GLM-5.2 или Qwen3.6 27B в рамках ограничений по размеру.
Пользователь отмечает, что модели с количеством параметров от 70B до 350B часто требуют значительного увеличения объема VRAM без пропорционального улучшения качества работы в реальных условиях.

В посте подчеркивается потребность сообщества в лучших метриках оценки для определения того, какие модели действительно стоит запускать локально с учетом ограничений оборудования.