一名用户在一个自定义的中世纪奇幻角色扮演基准测试上评估了八个本地模型,该测试涵盖任务完成、场景结局和角色检测。测试由外部LLM评分器根据每类不同的样本量进行评判。
- Gemma-4-31B以87%的最高总体通过率领先。
- Qwen3.6-27B紧随其后,通过率为82%。
- Gemma-4-12B得分为80%,而较小的模型得分在55%到70%之间。
- 评估揭示了特定子类别(如NPC思想)中存在显著的性能悬崖,这些被总体分数所掩盖。
作者强调,仅看总体百分比会掩盖不同角色扮演任务中模型能力的差异。
一名用户在一个自定义的中世纪奇幻角色扮演基准测试上评估了八个本地模型,该测试涵盖任务完成、场景结局和角色检测。测试由外部LLM评分器根据每类不同的样本量进行评判。
作者强调,仅看总体百分比会掩盖不同角色扮演任务中模型能力的差异。