複数タスクにおけるSoloとMoAのベンチマーク

本記事は、個別モデルとMixture-of-Agents (MoA) 構成を6つのタスク（Bug、Tool、Arch、Clinical、DLQ、および総合平均）で比較したベンチマーク結果を示しています。評価ハーネスにはHermes Agent v0.18が使用され、スコアは正確性、完全性、深さ、実行可能性、明瞭性、信頼性を重み付けしたルーブリックに基づきChatGPT 5.5とClaude opus 4.8によって生成されました。

トップランクの構成は、ドラフターとしてGemma-4-12B-4bit(vLLM)、Ornith1.0-35B-Q4_K_M(llama.cpp)、Qwen-3.6-27B-4bit(vLLM)を使用し、集約器としてQwen-3.6-27B-4bit(vLLM)を用いたMoAで、平均スコア86.7を達成しました。
2位となったMoA構成は、集約器にDeepSeek-v4-Pro (cloud) を使用し、総合スコア85.9でした。
最高パフォーマンスのソロモデルはQwen3.6-35B-A3B-Q4_K_M(llama.cpp)でランク3、平均85.2でした。それに続き、Qwen-3.6-27B-4bit(vLLM)がランク6、スコア84.6でした。
Nemotron 2 Cascade Q4_K_M(llama.cpp)はソロモデルとして振るわなかった（ランク14、スコア5.8）ほか、MoA構成で集約器としても低結果となりました。

これらの結果は、特定のMoA構成が、特に高い正確性と完全性が求められるタスクにおいて、個別の大規模モデルを上回る可能性があることを示しています。