一名用户在使用 inspect-ai 框架的 RTX 3090 上比较了 Qwen3.6 27b、Gemma4 26B A4B QAT 和 Ornith1.0 35B MoE,以评估本地模型的性能。 测试结果显示,在通用知识、接地能力和代码基准方面结果不一,Qwen3.6 通常在得分上领先,而 Ornith 在 DROP 等特定领域表现出优势。

  • 在通用知识与推理方面,Qwen3.6 在 6 个基准中的 4 个取得了最佳或并列最佳成绩,包括 GSM8K (0.96) 和 IFEval (0.95),而 Ornith 在 MMLU 零样本测试中领先 (0.91)。
  • 在接地与召回方面,Ornith 在 DROP 上得分最高 (0.952),高于 Qwen3.6 (0.947) 和 Gemma4 (0.932),所有模型在 NIAH 上的得分均为 10.0。
  • 在代码生成方面,Qwen3.6 在 DS-1000 (0.66 vs 0.48) 和 SCICode (10.769 vs 1.538) 上优于 Ornith,尽管两者在 ClassEval 上与 Gemma4 持平 (0.97)。
  • 作者指出了显著的实践挑战,包括 Gemma4 中的无限循环以及极长的处理时间,例如 Qwen3.6 的 IFEvalCode 耗时 18 小时。

文章强调了由于配置问题和资源限制,运行全面本地基准测试的难度,并建议需要更便捷的测试方法。