あるユーザーが、クエスト完了、シーン終了、キャラクター検出をカバーするカスタムの中世ファンタジーロールプレイングベンチマークにおいて、8つのローカルモデルを評価した。テストは、カテゴリごとに異なるサンプルサイズで、外部のLLMグラダーによって採点された。

  • Gemma-4-31Bは全体として87%の最高パス率を達成した。
  • Qwen3.6-27Bは82%のパス率で続いた。
  • Gemma-4-12Bは80%を記録し、小規模モデルは55%から70%の範囲だった。
  • 評価により、NPCの思考など特定のサブカテゴリで顕著なパフォーマンスの崖(急激な低下)が明らかになり、これは全体のスコアによって隠蔽されていた。

著者は、全体パーセンテージのみを見ると、異なるロールプレイングタスクにわたるモデルの能力の不均衡が見えなくなると指摘している。