Um usuário comparou Qwen3.6 27b, Gemma4 26B A4B QAT e Ornith1.0 35B MoE usando o framework inspect-ai em uma RTX 3090 para avaliar o desempenho de modelos locais. Os testes revelaram resultados mistos nos benchmarks de conhecimento geral, fundamentação e codificação, com Qwen3.6 geralmente liderando nas pontuações, enquanto Ornith mostrou pontos fortes em áreas específicas como DROP.

  • Em Conhecimento Geral e Raciocínio, Qwen3.6 obteve a melhor ou empatado na melhor pontuação em 4 dos 6 benchmarks, incluindo GSM8K (0,96) e IFEval (0,95), enquanto Ornith liderou no MMLU 0-shot (0,91).
  • Para Fundamentação e Recall, Ornith obteve a maior pontuação no DROP (0,952) em comparação com Qwen3.6 (0,947) e Gemma4 (0,932), com todos os modelos obtendo 10,0 no NIAH.
  • Em geração de código, Qwen3.6 superou Ornith no DS-1000 (0,66 vs 0,48) e SCICode (10,769 vs 1,538), embora ambos tenham empatado com Gemma4 no ClassEval (0,97).
  • O autor observou desafios práticos significativos, incluindo loops infinitos no Gemma4 e tempos de processamento extremos, como IFEvalCode levando 18 horas para Qwen3.6.

O artigo destaca a dificuldade de executar benchmarks locais abrangentes devido a problemas de configuração e restrições de recursos, sugerindo uma necessidade de métodos de teste mais convenientes.