Qwen3.6-27B在奇幻RP基准测试中得分82%，落后于Gemma-4-31B

一名用户在一个自定义的中世纪奇幻角色扮演基准测试上评估了八个本地模型，该测试涵盖任务完成、场景结局和角色检测。测试由外部LLM评分器根据每类不同的样本量进行评判。

作者强调，仅看总体百分比会掩盖不同角色扮演任务中模型能力的差异。