Semua artikel
media Hugging Face Forums · 8 jam lalu

Benchmarking Solo dan MoA pada berbagai tugas

Artikel ini menyajikan hasil benchmark yang membandingkan model individu dengan konfigurasi Mixture-of-Agents (MoA) di enam tugas: Bug, Tool, Arch, Clinical, DLQ, dan rata-rata keseluruhan. Harness evaluasi menggunakan Hermes Agent v0.18, dengan skor dihasilkan oleh ChatGPT 5.5 dan Claude opus 4.8 berdasarkan rubrik yang menimbang Benar, Kelengkapan, Kedalaman, Dapat Ditindaklanjuti, Kejelasan, dan Kepercayaan.