Qwen3.6-27B набирает 82% в бенчмарке фэнтези-RP, уступая Gemma-4-31B

Пользователь оценил восемь локальных моделей на пользовательском бенчмарке средневекового фэнтези-RP, охватывающем выполнение квестов, завершение сцен и обнаружение персонажей. Тест оценивался внешним LLM-градером при различном количестве образцов в каждой категории.

Gemma-4-31B показала наивысщий общий процент успешного прохождения — 87%.
Qwen3.6-27B последовала с результатом 82%.
Gemma-4-12B набрала 80%, в то время как более мелкие модели показали результаты от 55% до 70%.
Оценка выявила значительные падения производительности в конкретных подкатегориях, таких как мысли NPC, которые маскировались общими баллами.

Автор подчеркивает, что рассмотрение только общих процентов скрывает неравномерность возможностей моделей при выполнении различных задач ролевой игры.