Seorang pengguna membandingkan Qwen3.6 27b, Gemma4 26B A4B QAT, dan Ornith1.0 35B MoE menggunakan kerangka kerja inspect-ai pada RTX 3090 untuk mengevaluasi kinerja model lokal. Pengujian mengungkapkan hasil yang beragam di berbagai benchmark pengetahuan umum, grounding, dan pemrograman, dengan Qwen3.6 umumnya memimpin dalam skor sementara Ornith menunjukkan kekuatan di area tertentu seperti DROP.
- Dalam Pengetahuan Umum dan Penalaran, Qwen3.6 mencapai skor terbaik atau bersama terbaik di 4 dari 6 benchmark, termasuk GSM8K (0.96) dan IFEval (0.95), sementara Ornith memimpin di MMLU 0-shot (0.91).
- Untuk Grounding dan Recall, Ornith mencetak skor tertinggi pada DROP (0.952) dibandingkan Qwen3.6 (0.947) dan Gemma4 (0.932), dengan semua model mencetak 10.0 pada NIAH.
- Dalam generasi kode, Qwen3.6 mengungguli Ornith di DS-1000 (0.66 vs 0.48) dan SCICode (10.769 vs 1.538), meskipun keduanya menyamai Gemma4 pada ClassEval (0.97).
- Penulis mencatat tantangan praktis yang signifikan, termasuk pengulangan tak terbatas di Gemma4 dan waktu pemrosesan yang sangat lama, seperti IFEvalCode yang memakan waktu 18 jam untuk Qwen3.6.
Artikel ini menyoroti kesulitan menjalankan benchmark lokal yang komprehensif karena masalah konfigurasi dan keterbatasan sumber daya, serta menyarankan perlunya metode pengujian yang lebih nyaman.