معايير محلية باستخدام RTX 3090 - Qwen3.6 27b مقابل Ornith

قارن مستخدم بين Qwen3.6 27b وGemma4 26B A4B QAT وOrnith1.0 35B MoE باستخدام إطار عمل inspect-ai على RTX 3090 لتقييم أداء النماذج محليًا. أظهرت النتائج نتائج مختلطة عبر معايير المعرفة العامة، والتوجيه، والبرمجة، حيث كان Qwen3.6 يتصدر عمومًا في الدرجات بينما أظهر Ornith نقاط قوة في مجالات محددة مثل DROP.

في المعرفة العامة والاستدلال، حقق Qwen3.6 أفضل درجة أو مشتركة الأفضل في 4 من أصل 6 معايير، بما في ذلك GSM8K (0.96) وIFEval (0.95)، بينما تصدر Ornith في MMLU 0-shot (0.91).
للتوجيه والاسترجاع، سجل Ornith أعلى درجة على DROP (0.952) مقارنة بـ Qwen3.6 (0.947) وGemma4 (0.932)، مع تسجيل جميع النماذج 10.0 على NIAH.
في توليد الكود، تفوق Qwen3.6 على Ornith في DS-1000 (0.66 مقابل 0.48) وSCICode (10.769 مقابل 1.538)، رغم أن كليهما حققا نفس نتيجة Gemma4 على ClassEval (0.97).
لاحظ المؤلف تحديات عملية كبيرة، بما في ذلك التكرار اللانهائي في Gemma4 وأوقات معالجة طويلة جدًا، مثل IFEvalCode الذي استغرق 18 ساعة لـ Qwen3.6.

تسلط المقالة الضوء على صعوبة تشغيل معايير محلية شاملة بسبب مشاكل التكوين والقيود المواردية، مما يشير إلى الحاجة لطرق اختبار أكثر ملاءمة.