使用 RTX 3090 进行本地基准测试 - Qwen3.6 27b 与 Ornith

一名用户在使用 inspect-ai 框架的 RTX 3090 上比较了 Qwen3.6 27b、Gemma4 26B A4B QAT 和 Ornith1.0 35B MoE，以评估本地模型的性能。测试结果显示，在通用知识、接地能力和代码基准方面结果不一，Qwen3.6 通常在得分上领先，而 Ornith 在 DROP 等特定领域表现出优势。

在通用知识与推理方面，Qwen3.6 在 6 个基准中的 4 个取得了最佳或并列最佳成绩，包括 GSM8K (0.96) 和 IFEval (0.95)，而 Ornith 在 MMLU 零样本测试中领先 (0.91)。
在接地与召回方面，Ornith 在 DROP 上得分最高 (0.952)，高于 Qwen3.6 (0.947) 和 Gemma4 (0.932)，所有模型在 NIAH 上的得分均为 10.0。
在代码生成方面，Qwen3.6 在 DS-1000 (0.66 vs 0.48) 和 SCICode (10.769 vs 1.538) 上优于 Ornith，尽管两者在 ClassEval 上与 Gemma4 持平 (0.97)。
作者指出了显著的实践挑战，包括 Gemma4 中的无限循环以及极长的处理时间，例如 Qwen3.6 的 IFEvalCode 耗时 18 小时。

文章强调了由于配置问题和资源限制，运行全面本地基准测试的难度，并建议需要更便捷的测试方法。