Seorang pengguna mengevaluasi delapan model lokal pada benchmark peran fantasi abad pertengahan kustom yang mencakup penyelesaian misi, akhir adegan, dan deteksi karakter. Uji ini dinilai oleh penilai LLM eksternal dengan ukuran sampel yang bervariasi per kategori.
- Gemma-4-31B mencapai tingkat kelulusan keseluruhan tertinggi sebesar 87%.
- Qwen3.6-27B menyusul dengan tingkat kelulusan 82%.
- Gemma-4-12B meraih skor 80%, sementara model yang lebih kecil berkisar antara 55% hingga 70%.
- Evaluasi ini mengungkapkan jurang kinerja yang signifikan dalam sub-kategori tertentu seperti pikiran NPC, yang tersembunyi oleh skor keseluruhan.
Penulis menyoroti bahwa hanya melihat persentase keseluruhan menyembunyikan kemampuan model yang tidak merata di berbagai tugas peran.