Benchmarking de Solo y MoA en múltiples tareas

El artículo presenta resultados de benchmark que comparan modelos individuales frente a configuraciones de Mixture-of-Agents (MoA) en seis tareas: Bug, Tool, Arch, Clinical, DLQ y un promedio general. El framework de evaluación utilizó Hermes Agent v0.18, con puntuaciones generadas por ChatGPT 5.5 y Claude opus 4.8 basándose en una rúbrica que pondera Correctness, Completeness, Depth, Actionability, Clarity y Trust.

La configuración mejor clasificada fue un MoA usando Gemma-4-12B-4bit(vLLM), Ornith1.0-35B-Q4_K_M(llama.cpp) y Qwen-3.6-27B-4bit(vLLM) como drafters con Qwen-3.6-27B-4bit(vLLM) como agregador, logrando un puntaje promedio de 86.7.
La segunda configuración MoA clasificada usó DeepSeek-v4-Pro (cloud) como agregador y obtuvo 85.9 en general.
El modelo solo de mayor rendimiento fue Qwen3.6-35B-A3B-Q4_K_M(llama.cpp) en el puesto 3 con un promedio de 85.2, seguido por Qwen-3.6-27B-4bit(vLLM) en el puesto 6 con 84.6.
Nemotron 2 Cascade Q4_K_M(llama.cpp) tuvo un rendimiento pobre como modelo solo (puesto 14, puntaje 5.8) y también arrojó resultados bajos cuando se usó como agregador en configuraciones MoA.

Los resultados indican que configuraciones específicas de MoA pueden superar a modelos grandes individuales, particularmente en tareas que requieren alta correctness y completeness.