लेख में छह कार्यों: Bug, Tool, Arch, Clinical, DLQ, और एक समग्र औसत के माध्यम से व्यक्तिगत मॉडलों की तुलना मिक्सर-ऑफ-एजेंट्स (MoA) कॉन्फ़िगरेशन के साथ बेंचमार्क परिणाम प्रस्तुत करता है। हेर्मेस एजेंट v0.18 का उपयोग करने वाले मूल्यांकन हार्नेस ने सहीता, पूर्णता, गहराई, क्रियाशीलता, स्पष्टता और विश्वास पर आधारित एक रबरिक वजन के आधार पर चैटजीपीटी 5.5 और क्लॉड ओपस 4.8 द्वारा स्कोर उत्पन्न किए।

  • शीर्ष स्थान प्राप्त कॉन्फ़िगरेशन एक MoA था जिसमें जेमा-4-12बी-4बिट(vLLM), ऑर्निथ1.0-35बी-क्यू4_के_एम(llama.cpp), और क्वेन-3.6-27बी-4बिट(vLLM) ड्राफ्टर्स के रूप में थे, जबकि क्वेन-3.6-27बी-4बिट(vLLM) एग्रीगेटर के रूप में था, जिसने 86.7 का औसत स्कोर प्राप्त किया।
  • दूसरे स्थान पर MoA कॉन्फ़िगरेशन ने डीपसीक-v4-प्रो (क्लाउड) को एग्रीगेटर के रूप में उपयोग किया और समग्र रूप से 85.9 का स्कोर प्राप्त किया।
  • उच्चतम प्रदर्शन करने वाला एकाकी मॉडल क्वेन3.6-35बी-ए3बी-क्यू4_के_एम(llama.cpp) था, जो रैंक 3 पर था और औसत 85.2 था, इसके बाद क्वेन-3.6-27बी-4बिट(vLLM) रैंक 6 पर था जिसका स्कोर 84.6 था।
  • नेमोट्रॉन 2 कैस्केड क्यू4_के_एम(llama.cpp) एक एकाकी मॉडल के रूप में खराब प्रदर्शन किया (रैंक 14, स्कोर 5.8) और MoA सेटअप में एग्रीगेटर के रूप में उपयोग करने पर भी कम परिणाम दिए।

परिणाम संकेत करते हैं कि विशिष्ट MoA कॉन्फ़िगरेशन व्यक्तिगत बड़े मॉडलों की तुलना में बेहतर प्रदर्शन कर सकते हैं, विशेष रूप से उन कार्यों में जिनमें उच्च सहीता और पूर्णता की आवश्यकता होती है।