Benchmarks locales con una RTX 3090 - Qwen3.6 27b vs Ornith

Un usuario comparó Qwen3.6 27b, Gemma4 26B A4B QAT y Ornith1.0 35B MoE utilizando el framework inspect-ai en una RTX 3090 para evaluar el rendimiento de modelos locales. Las pruebas revelaron resultados mixtos en benchmarks de conocimiento general, fundamentación y codificación, con Qwen3.6 liderando generalmente en puntuaciones mientras que Ornith mostró fortalezas en áreas específicas como DROP.

En Conocimiento General y Razonamiento, Qwen3.6 logró la mejor o empatada mejor puntuación en 4 de 6 benchmarks, incluyendo GSM8K (0.96) e IFEval (0.95), mientras que Ornith lideró en MMLU 0-shot (0.91).
Para Fundamentación y Recuperación, Ornith obtuvo la puntuación más alta en DROP (0.952) en comparación con Qwen3.6 (0.947) y Gemma4 (0.932), con todos los modelos obteniendo 10.0 en NIAH.
En generación de código, Qwen3.6 superó a Ornith en DS-1000 (0.66 vs 0.48) y SCICode (10.769 vs 1.538), aunque ambos empataron con Gemma4 en ClassEval (0.97).
El autor señaló desafíos prácticos significativos, incluyendo bucles infinitos en Gemma4 y tiempos de procesamiento extremos, como IFEvalCode que tomó 18 horas para Qwen3.6.

El artículo destaca la dificultad de ejecutar benchmarks locales integrales debido a problemas de configuración y limitaciones de recursos, sugiriendo la necesidad de métodos de prueba más convenientes.