एक उपयोगकर्ता ने कस्टम मीडियवल फंतासी रोल-प्लेइंग बेंचमार्क पर आठ लोकल मॉडल्स का मूल्यांकन किया, जिसमें क्वेस्ट पूरा करना, सीन एंडिंग और कैरेक्टर डिटेक्शन शामिल हैं। टेस्ट को प्रत्येक श्रेणी में विभिन्न सैंपल साइज़ के साथ एक बाहरी LLM ग्रेडर द्वारा जज किया गया।
- Gemma-4-31B ने 87% की सबसे ऊंची कुल पास रेट हासिल की।
- Qwen3.6-27B ने 82% की पास रेट के साथ करीब से पीछे किया।
- Gemma-4-12B ने 80% स्कोर किया, जबकि छोटे मॉडल्स 55% और 70% के बीच थे।
- मूल्यांकन ने विशिष्ट सब-श्रेणियों जैसे NPC थॉट्स में महत्वपूर्ण प्रदर्शन क्लिफ़ को उजागर किया, जो कुल स्कोर द्वारा छिपा हुआ था।
लेखक ने हाइलाइट किया है कि केवल कुल प्रतिशत देखना विभिन्न रोल-प्लेइंग टास्क में मॉडल्स की असमान क्षमताओं को छिपा देता है।