Benchmarking Solo dan MoA pada berbagai tugas

Artikel ini menyajikan hasil benchmark yang membandingkan model individu dengan konfigurasi Mixture-of-Agents (MoA) di enam tugas: Bug, Tool, Arch, Clinical, DLQ, dan rata-rata keseluruhan. Harness evaluasi menggunakan Hermes Agent v0.18, dengan skor dihasilkan oleh ChatGPT 5.5 dan Claude opus 4.8 berdasarkan rubrik yang menimbang Benar, Kelengkapan, Kedalaman, Dapat Ditindaklanjuti, Kejelasan, dan Kepercayaan.

Konfigurasi peringkat teratas adalah MoA yang menggunakan Gemma-4-12B-4bit(vLLM), Ornith1.0-35B-Q4_K_M(llama.cpp), dan Qwen-3.6-27B-4bit(vLLM) sebagai drafter dengan Qwen-3.6-27B-4bit(vLLM) sebagai aggregator, mencapai skor rata-rata 86.7.
Konfigurasi MoA peringkat kedua menggunakan DeepSeek-v4-Pro (cloud) sebagai aggregator dan mencetak skor keseluruhan 85.9.
Model solo berkinerja tertinggi adalah Qwen3.6-35B-A3B-Q4_K_M(llama.cpp) di peringkat 3 dengan rata-rata 85.2, diikuti oleh Qwen-3.6-27B-4bit(vLLM) di peringkat 6 dengan 84.6.
Nemotron 2 Cascade Q4_K_M(llama.cpp) berkinerja buruk sebagai model solo (peringkat 14, skor 5.8) dan juga menghasilkan hasil rendah ketika digunakan sebagai aggregator dalam setup MoA.

Hasil menunjukkan bahwa konfigurasi MoA tertentu dapat mengungguli model besar individu, khususnya dalam tugas yang memerlukan kebenaran dan kelengkapan tinggi.