Qwen3.6-27B marca 82% em benchmark de RP de fantasia, atrás do Gemma-4-31B

Um usuário avaliou oito modelos locais em um benchmark personalizado de RPG medieval de fantasia que cobre conclusão de missões, finais de cena e detecção de personagens. O teste foi julgado por um avaliador LLM externo com diferentes tamanhos de amostra por categoria.

Gemma-4-31B alcançou a maior taxa geral de aprovação em 87%.
Qwen3.6-27B ficou logo atrás com uma taxa de aprovação de 82%.
Gemma-4-12B marcou 80%, enquanto os modelos menores variaram entre 55% e 70%.
A avaliação revelou quedas significativas de desempenho em subcategorias específicas como pensamentos de NPC, que foram mascaradas pelas pontuações gerais.

O autor destaca que olhar apenas para as porcentagens gerais esconde capacidades desiguais dos modelos em diferentes tarefas de RPG.