Benchmarking de Solo e MoA em múltiplas tarefas

O artigo apresenta resultados de benchmark comparando modelos individuais contra configurações de Mixture-of-Agents (MoA) em seis tarefas: Bug, Tool, Arch, Clinical, DLQ e uma média geral. O framework de avaliação utilizou Hermes Agent v0.18, com pontuações geradas por ChatGPT 5.5 e Claude opus 4.8 com base em uma rubrica que pondera Corretude, Completude, Profundidade, Acionabilidade, Clareza e Confiança.

A configuração de maior ranking foi um MoA usando Gemma-4-12B-4bit(vLLM), Ornith1.0-35B-Q4_K_M(llama.cpp) e Qwen-3.6-27B-4bit(vLLM) como redatores, com Qwen-3.6-27B-4bit(vLLM) como agregador, alcançando uma pontuação média de 86.7.
A configuração MoA de segundo lugar usou DeepSeek-v4-Pro (cloud) como agregador e obteve 85.9 no geral.
O modelo solo de melhor desempenho foi Qwen3.6-35B-A3B-Q4_K_M(llama.cpp) em 3º lugar com média de 85.2, seguido por Qwen-3.6-27B-4bit(vLLM) em 6º lugar com 84.6.
Nemotron 2 Cascade Q4_K_M(llama.cpp) teve desempenho ruim como modelo solo (14º lugar, pontuação 5.8) e também obteve resultados baixos quando usado como agregador em configurações MoA.

Os resultados indicam que configurações específicas de MoA podem superar modelos grandes individuais, particularmente em tarefas que exigem alta corretude e completude.