본 기사는 여섯 가지 작업(Bug, Tool, Arch, Clinical, DLQ 및 전체 평균)에서 개별 모델과 Mixture-of-Agents(MoA) 구성을 비교하는 벤치마크 결과를 제시합니다. Hermes Agent v0.18 평가 허즈가 사용되었으며, 점수는 정확성(Correctness), 완전성(Completeness), 깊이(Depth), 실행 가능성(Actionability), 명확성(Clearity), 신뢰도(Trust)를 가중치로 하는 기준에 따라 ChatGPT 5.5와 Claude opus 4.8이 생성했습니다.
- 상위 랭크 구성은 Gemma-4-12B-4bit(vLLM), Ornith1.0-35B-Q4_K_M(llama.cpp) 및 Qwen-3.6-27B-4bit(vLLM)를 드래프터로 사용하고 Qwen-3.6-27B-4bit(vLLM)를 어그리게이터로 사용하는 MoA였으며, 평균 점수 86.7을 달성했습니다.
- 두 번째로 랭크된 MoA 구성은 DeepSeek-v4-Pro (cloud)를 어그리게이터로 사용했으며 전체 점수는 85.9였습니다.
- 최고 성능의 솔로 모델은 Qwen3.6-35B-A3B-Q4_K_M(llama.cpp)로 3위 랭크에 평균 85.2점을 기록했으며, 그 다음으로 Qwen-3.6-27B-4bit(vLLM)가 6위 랭크에 84.6점으로 뒤를 이었습니다.
- Nemotron 2 Cascade Q4_K_M(llama.cpp)는 솔로 모델로서 낮은 성능을 보였으며(14위, 점수 5.8), MoA 설정에서 어그리게이터로 사용될 때도 낮은 결과를 나타냈습니다.
결과는 특정 MoA 구성이 개별 대형 모델보다 우월할 수 있음을 시사하며, 특히 높은 정확성과 완전성이 요구되는 작업에서 두드러집니다.