Um usuário avaliou oito modelos locais em um benchmark personalizado de RPG medieval de fantasia que cobre conclusão de missões, finais de cena e detecção de personagens. O teste foi julgado por um avaliador LLM externo com diferentes tamanhos de amostra por categoria.

  • Gemma-4-31B alcançou a maior taxa geral de aprovação em 87%.
  • Qwen3.6-27B ficou logo atrás com uma taxa de aprovação de 82%.
  • Gemma-4-12B marcou 80%, enquanto os modelos menores variaram entre 55% e 70%.
  • A avaliação revelou quedas significativas de desempenho em subcategorias específicas como pensamentos de NPC, que foram mascaradas pelas pontuações gerais.

O autor destaca que olhar apenas para as porcentagens gerais esconde capacidades desiguais dos modelos em diferentes tarefas de RPG.