Un utilisateur a évalué huit modèles locaux sur un benchmark personnalisé de jeu de rôle médiéval-fantastique couvrant l'achèvement des quêtes, les fins de scène et la détection de personnages. Le test a été jugé par un évaluateur LLM externe sur différentes tailles d'échantillons par catégorie.
- Gemma-4-31B a obtenu le taux de réussite global le plus élevé à 87 %.
- Qwen3.6-27B a suivi de près avec un taux de réussite de 82 %.
- Gemma-4-12B a marqué 80 %, tandis que les modèles plus petits se situaient entre 55 % et 70 %.
- L'évaluation a révélé des cliffs de performance significatifs dans des sous-catégories spécifiques comme les pensées des PNJ, masqués par les scores globaux.
L'auteur souligne que ne regarder que les pourcentages globaux cache les capacités inégales des modèles à travers différentes tâches de jeu de rôle.