다양한 작업에 대한 Solo 및 MoA 벤치마킹

본 기사는 여섯 가지 작업(Bug, Tool, Arch, Clinical, DLQ 및 전체 평균)에서 개별 모델과 Mixture-of-Agents(MoA) 구성을 비교하는 벤치마크 결과를 제시합니다. Hermes Agent v0.18 평가 허즈가 사용되었으며, 점수는 정확성(Correctness), 완전성(Completeness), 깊이(Depth), 실행 가능성(Actionability), 명확성(Clearity), 신뢰도(Trust)를 가중치로 하는 기준에 따라 ChatGPT 5.5와 Claude opus 4.8이 생성했습니다.

상위 랭크 구성은 Gemma-4-12B-4bit(vLLM), Ornith1.0-35B-Q4_K_M(llama.cpp) 및 Qwen-3.6-27B-4bit(vLLM)를 드래프터로 사용하고 Qwen-3.6-27B-4bit(vLLM)를 어그리게이터로 사용하는 MoA였으며, 평균 점수 86.7을 달성했습니다.
두 번째로 랭크된 MoA 구성은 DeepSeek-v4-Pro (cloud)를 어그리게이터로 사용했으며 전체 점수는 85.9였습니다.
최고 성능의 솔로 모델은 Qwen3.6-35B-A3B-Q4_K_M(llama.cpp)로 3위 랭크에 평균 85.2점을 기록했으며, 그 다음으로 Qwen-3.6-27B-4bit(vLLM)가 6위 랭크에 84.6점으로 뒤를 이었습니다.
Nemotron 2 Cascade Q4_K_M(llama.cpp)는 솔로 모델로서 낮은 성능을 보였으며(14위, 점수 5.8), MoA 설정에서 어그리게이터로 사용될 때도 낮은 결과를 나타냈습니다.

결과는 특정 MoA 구성이 개별 대형 모델보다 우월할 수 있음을 시사하며, 특히 높은 정확성과 완전성이 요구되는 작업에서 두드러집니다.