Пользователь оценил восемь локальных моделей на пользовательском бенчмарке средневекового фэнтези-RP, охватывающем выполнение квестов, завершение сцен и обнаружение персонажей. Тест оценивался внешним LLM-градером при различном количестве образцов в каждой категории.

  • Gemma-4-31B показала наивысщий общий процент успешного прохождения — 87%.
  • Qwen3.6-27B последовала с результатом 82%.
  • Gemma-4-12B набрала 80%, в то время как более мелкие модели показали результаты от 55% до 70%.
  • Оценка выявила значительные падения производительности в конкретных подкатегориях, таких как мысли NPC, которые маскировались общими баллами.

Автор подчеркивает, что рассмотрение только общих процентов скрывает неравномерность возможностей моделей при выполнении различных задач ролевой игры.