Соло и бенчмаркинг MoA на множестве задач

В статье представлены результаты бенчмарков, сравнивающие отдельные модели с конфигурациями Mixture-of-Agents (MoA) по шести задачам: Bug, Tool, Arch, Clinical, DLQ и общий средний балл. Для оценки использовался Hermes Agent v0.18, а оценки генерировались ChatGPT 5.5 и Claude opus 4.8 на основе рубрики, учитывающей Correctness, Completeness, Depth, Actionability, Clarity и Trust.

Конфигурация MoA, занявшая первое место, использовала Gemma-4-12B-4bit(vLLM), Ornith1.0-35B-Q4_K_M(llama.cpp) и Qwen-3.6-27B-4bit(vLLM) в качестве черновиков (drafters), а Qwen-3.6-27B-4bit(vLLM) — как агрегатор, достигнув среднего балла 86.7.
Вторая по рейтингу конфигурация MoA использовала DeepSeek-v4-Pro (cloud) в качестве агрегатора и набрала в целом 85.9.
Лучшая одиночная модель была Qwen3.6-35B-A3B-Q4_K_M(llama.cpp) на 3 месте со средним баллом 85.2, за ней следовала Qwen-3.6-27B-4bit(vLLM) на 6 месте с результатом 84.6.
Nemotron 2 Cascade Q4_K_M(llama.cpp) показала плохие результаты как одиночная модель (14 место, балл 5.8) и также дала низкие результаты при использовании в качестве агрегатора в конфигурациях MoA.

Результаты показывают, что определенные конфигурации MoA могут превосходить отдельные большие модели, особенно в задачах, требующих высокой корректности и полноты.