Un benchmark revisado de modelos de lenguaje visual locales evalúa 23 modelos en 30 imágenes con 3 pruebas cada una, totalizando 2.070 pruebas y entre 60 y 70 horas de inferencia. El modelo con mejor rendimiento es Qwen3.6 27B (nothink) en Q4 con una puntuación de 79.6, seguido por Qwen3.5 4B (nothink) en Q4, y Qwen3-VL 8B en Q8. Los hallazgos clave incluyen que el modo de pensamiento degrada el rendimiento visual, los modelos MoE tienen un rendimiento inferior en comparación con los modelos densos, y la cuantización Q8 no mejora universalmente los resultados.