Un utilisateur a comparé Qwen3.6 27b, Gemma4 26B A4B QAT et Ornith1.0 35B MoE en utilisant le framework inspect-ai sur une RTX 3090 pour évaluer les performances des modèles locaux. Les tests ont révélé des résultats mitigés sur les benchmarks de connaissances générales, d'ancrage (grounding) et de codage, Qwen3.6 menant généralement aux scores tandis qu'Ornith montrait des forces dans des domaines spécifiques comme DROP.
- En Connaissances Générales et Raisonnement, Qwen3.6 a obtenu le meilleur score ou ex æquo dans 4 des 6 benchmarks, dont GSM8K (0.96) et IFEval (0.95), tandis qu'Ornith a mené sur MMLU 0-shot (0.91).
- Pour l'Ancrage et le Rappel, Ornith a marqué le plus haut sur DROP (0.952) par rapport à Qwen3.6 (0.947) et Gemma4 (0.932), tous les modèles marquant 10.0 sur NIAH.
- En génération de code, Qwen3.6 a surpassé Ornith sur DS-1000 (0.66 contre 0.48) et SCICode (10.769 contre 1.538), bien que les deux aient égalé Gemma4 sur ClassEval (0.97).
- L'auteur a noté des défis pratiques importants, y compris des boucles infinies dans Gemma4 et des temps de traitement extrêmes, tels qu'IFEvalCode prenant 18 heures pour Qwen3.6.
L'article met en évidence la difficulté d'exécuter des benchmarks locaux complets en raison de problèmes de configuration et de contraintes de ressources, suggérant un besoin de méthodes de test plus pratiques.