Qwen3.6-27B marque 82 % au benchmark de RP fantastique, derrière Gemma-4-31B

Un utilisateur a évalué huit modèles locaux sur un benchmark personnalisé de jeu de rôle médiéval-fantastique couvrant l'achèvement des quêtes, les fins de scène et la détection de personnages. Le test a été jugé par un évaluateur LLM externe sur différentes tailles d'échantillons par catégorie.

Gemma-4-31B a obtenu le taux de réussite global le plus élevé à 87 %.
Qwen3.6-27B a suivi de près avec un taux de réussite de 82 %.
Gemma-4-12B a marqué 80 %, tandis que les modèles plus petits se situaient entre 55 % et 70 %.
L'évaluation a révélé des cliffs de performance significatifs dans des sous-catégories spécifiques comme les pensées des PNJ, masqués par les scores globaux.

L'auteur souligne que ne regarder que les pourcentages globaux cache les capacités inégales des modèles à travers différentes tâches de jeu de rôle.