Пользователь сравнил Qwen3.6 27b, Gemma4 26B A4B QAT и Ornith1.0 35B MoE с помощью фреймворка inspect-ai на RTX 3090 для оценки производительности локальных моделей. Тестирование выявило смешанные результаты по общим знаниям, grounding (привязке к контексту) и бенчмаркам программирования, при этом Qwen3.6 в целом лидировал по баллам, а Ornith показал сильные стороны в таких областях, как DROP.
- В общих знаниях и рассуждениях Qwen3.6 достиг лучших или совместных лучших результатов в 4 из 6 бенчмарков, включая GSM8K (0.96) и IFEval (0.95), тогда как Ornith лидировал в MMLU 0-shot (0.91).
- По grounding и recall Ornith набрал больше всего баллов в DROP (0.952) по сравнению с Qwen3.6 (0.947) и Gemma4 (0.932), при этом все модели набрали 10.0 на NIAH.
- В генерации кода Qwen3.6 превзошел Ornith в DS-1000 (0.66 против 0.48) и SCICode (10.769 против 1.538), хотя обе модели совпали с Gemma4 на ClassEval (0.97).
- Автор отметил значительные практические проблемы, включая бесконечную зацикленность в Gemma4 и экстремально долгое время обработки, например, IFEvalCode занял 18 часов для Qwen3.6.
Статья подчеркивает сложность проведения комплексных локальных бенчмарков из-за проблем с конфигурацией и ограничений ресурсов, указывая на необходимость более удобных методов тестирования.