تقييم Solo وMoA على مهام متعددة

يقدم المقال نتائج تقييم تقارن بين النماذج الفردية وتكوينات Mixture-of-Agents (MoA) عبر ست مهام: Bug، Tool، Arch، Clinical، DLQ، ومتوسط عام. استخدمت مجموعة التقييم Hermes Agent v0.18، مع توليد الدرجات بواسطة ChatGPT 5.5 وClaude opus 4.8 بناءً على مقياس يوزن الصحة، الاكتمال، العمق، إمكانية التنفيذ، الوضوح، والثقة.

كان التكوين الأعلى ترتيباً هو MoA يستخدم Gemma-4-12B-4bit(vLLM)، وOrnith1.0-35B-Q4_K_M(llama.cpp)، وQwen-3.6-27B-4bit(vLLM) كمساعدين مسودين، مع Qwen-3.6-27B-4bit(vLLM) كجامع، محققاً متوسط درجة 86.7.
استخدم التكوين MoA الثاني المرتبة الثانية DeepSeek-v4-Pro (cloud) كجامح وحصل على 85.9 بشكل عام.
كان أفضل نموذج فردي هو Qwen3.6-35B-A3B-Q4_K_M(llama.cpp) في المرتبة الثالثة بمتوسط 85.2، يليه Qwen-3.6-27B-4bit(vLLM) في المرتبة السادسة بـ 84.6.
أدى Nemotron 2 Cascade Q4_K_M(llama.cpp) أداءً ضعيفاً كنموذج فردي (المرتبة 14، الدرجة 5.8)، كما أنتج نتائج منخفضة عند استخدامه كجامع في إعدادات MoA.

تشير النتائج إلى أن تكوينات MoA المحددة يمكن أن تتفوق على النماذج الكبيرة الفردية، خاصة في المهام التي تتطلب صحة واكتمالاً عاليين.