قام مستخدم بتقييم ثمانية نماذج محلية على معيار مخصص للعب الأدوار الفانتازي العصور الوسطى يغطي إكمال المهام، نهايات المشاهد، وكشف الشخصيات. تم تقييم الاختبار بواسطة مُقيّم LLM خارجي عبر أحجام عينات متفاوتة لكل فئة.

  • حققت Gemma-4-31B أعلى معدل نجاح عام بنسبة 87%.
  • جاء Qwen3.6-27B في المرتبة الثانية بمعدل نجاح 82%.
  • حصلت Gemma-4-12B على 80%، بينما تراوحت النماذج الأصغر بين 55% و70%.
  • كشفت التقييمات عن تدهور كبير في الأداء في فئات فرعية محددة مثل أفكار الشخصيات غير الملعوبة (NPC)، والتي كانت مخفية بواسطة النتائج العامة.

يؤكد المؤلف أن النظر فقط إلى النسب المئوية الإجمالية يخفي القدرات غير المتكافئة للنماذج عبر مهام لعب الأدوار المختلفة.