एक उपयोगकर्ता ने inspect-ai फ्रेमवर्क का उपयोग करके RTX 3090 पर स्थानीय मॉडल प्रदर्शन का मूल्यांकन करने के लिए Qwen3.6 27b, Gemma4 26B A4B QAT, और Ornith1.0 35B MoE की तुलना की। परीक्षण ने सामान्य ज्ञान, ग्राउंडिंग और कोडिंग बेंचमार्क में मिश्रित परिणाम दिखाए, जिसमें स्कोर में Qwen3.6 सामान्य रूप से अग्रणी था जबकि Ornith ने DROP जैसे विशिष्ट क्षेत्रों में मजबूती दिखाई।
- सामान्य ज्ञान और तर्क में, Qwen3.6 ने 6 बेंचमार्क में से 4 में सर्वश्रेष्ठ या संयुक्त-सर्वश्रेष्ठ स्कोर हासिल किया, जिसमें GSM8K (0.96) और IFEval (0.95) शामिल हैं, जबकि Ornith ने MMLU 0-shot (0.91) में अग्रता प्राप्त की।
- ग्राउंडिंग और रिकॉल के लिए, Ornith ने DROP पर सबसे उच्च स्कोर (0.952) हासिल किया, Qwen3.6 (0.947) और Gemma4 (0.932) की तुलना में, जबकि सभी मॉडलों ने NIAH पर 10.0 स्कोर किया।
- कोड जनरेशन में, Qwen3.6 ने DS-1000 (0.66 बनाम 0.48) और SCICode (10.769 बनाम 1.538) में Ornith से बेहतर प्रदर्शन किया, हालांकि दोनों ने ClassEval पर Gemma4 के साथ बराबरी की (0.97)।
- लेखक ने महत्वपूर्ण व्यावहारिक चुनौतियों का उल्लेख किया, जिसमें Gemma4 में अनंत लूपिंग और अत्यधिक प्रसंस्करण समय शामिल हैं, जैसे कि Qwen3.6 के लिए IFEvalCode को 18 घंटे लगना।
लेख स्थानीय बेंचमार्क का व्यापक रूप से चलाने की कठिनाई पर प्रकाश डालता है, जो कॉन्फ़िगरेशन समस्याओं और संसाधन सीमाओं के कारण है, और अधिक सुविधाजनक परीक्षण विधियों की आवश्यकता की ओर इशारा करता है।