あるユーザーが、RTX 3090上でinspect-aiフレームワークを使用してQwen3.6 27b、Gemma4 26B A4B QAT、およびOrnith1.0 35B MoEを比較し、ローカルモデルのパフォーマンスを評価しました。 テストの結果は、一般知識、グラウンディング、コーディングのベンチマークで混合したものであり、Qwen3.6がスコアで一般的にリードしましたが、OrnithはDROPのような特定分野で強みを見せました。

  • 一般知識と推論において、Qwen3.6はGSM8K (0.96) や IFEval (0.95) を含む6つのベンチマークのうち4つで最高のスコアまたは共同最高スコアを達成し、OrnithはMMLU 0-shot (0.91) でリードしました。
  • グラウンディングとリコールにおいて、OrnithはNIAHで全モデルが10.0のスコアを獲得する中、DROPでQwen3.6 (0.947) やGemma4 (0.932) より高い0.952を記録しました。
  • コード生成において、Qwen3.6はDS-1000 (0.66 vs 0.48) とSCICode (10.769 vs 1.538) でOrnithを上回りましたが、両モデルともClassEvalでGemma4と同等の0.97を達成しました。
  • 著者は、Gemma4での無限ループやIFEvalCodeがQwen3.6で18時間かかったような極端な処理時間など、実用的な課題の大きさを指摘しました。

記事は、設定の問題やリソース制約により包括的なローカルベンチマークを実行することが困難であることを強調し、より便利なテスト方法の必要性を示唆しています。