Um usuário avaliou oito modelos locais em um benchmark personalizado de RPG medieval de fantasia que cobre conclusão de missões, finais de cena e detecção de personagens. O teste foi julgado por um avaliador LLM externo com diferentes tamanhos de amostra por categoria.
- Gemma-4-31B alcançou a maior taxa geral de aprovação em 87%.
- Qwen3.6-27B ficou logo atrás com uma taxa de aprovação de 82%.
- Gemma-4-12B marcou 80%, enquanto os modelos menores variaram entre 55% e 70%.
- A avaliação revelou quedas significativas de desempenho em subcategorias específicas como pensamentos de NPC, que foram mascaradas pelas pontuações gerais.
O autor destaca que olhar apenas para as porcentagens gerais esconde capacidades desiguais dos modelos em diferentes tarefas de RPG.