Benchmarking Solo et MoA sur plusieurs tâches

L'article présente des résultats de benchmark comparant des modèles individuels aux configurations Mixture-of-Agents (MoA) sur six tâches : Bug, Tool, Arch, Clinical, DLQ et une moyenne globale. Le harnais d'évaluation utilisé est Hermes Agent v0.18, avec des scores générés par ChatGPT 5.5 et Claude opus 4.8 selon une grille pondérant Correctness, Completeness, Depth, Actionability, Clarity et Trust.

La configuration classée première était un MoA utilisant Gemma-4-12B-4bit(vLLM), Ornith1.0-35B-Q4_K_M(llama.cpp) et Qwen-3.6-27B-4bit(vLLM) comme rédacteurs avec Qwen-3.6-27B-4bit(vLLM) comme agrégateur, atteignant un score moyen de 86.7.
La configuration MoA classée deuxième utilisait DeepSeek-v4-Pro (cloud) comme agrégateur et a obtenu un score global de 85.9.
Le modèle solo le plus performant était Qwen3.6-35B-A3B-Q4_K_M(llama.cpp) au rang 3 avec une moyenne de 85.2, suivi par Qwen-3.6-27B-4bit(vLLM) au rang 6 avec 84.6.
Nemotron 2 Cascade Q4_K_M(llama.cpp) a performé faiblement en tant que modèle solo (rang 14, score 5.8) et a également donné des résultats faibles lorsqu'il était utilisé comme agrégateur dans des configurations MoA.

Les résultats indiquent que certaines configurations MoA peuvent surpasser les grands modèles individuels, particulièrement dans les tâches nécessitant une haute correctness et completeness.