Qwen3.6-27BがファンタジーRPベンチマークで82%を記録、Gemma-4-31Bに次ぐ

あるユーザーが、クエスト完了、シーン終了、キャラクター検出をカバーするカスタムの中世ファンタジーロールプレイングベンチマークにおいて、8つのローカルモデルを評価した。テストは、カテゴリごとに異なるサンプルサイズで、外部のLLMグラダーによって採点された。

著者は、全体パーセンテージのみを見ると、異なるロールプレイングタスクにわたるモデルの能力の不均衡が見えなくなると指摘している。