Un usuario informa que Qwen3-VL-2B es el único modelo viable de visión y lenguaje para extraer datos de imágenes a JSON de forma fiable en dispositivos con especificaciones bajas, como portátiles Intel i3 con 8GB de RAM. El autor señala que, a pesar de su rendimiento, el modelo está ausente de las principales evaluaciones como Artificial Analysis y la Open LLM Leaderboard.
- Las pruebas se realizaron en tres portátiles "de baja gama" ejecutando Windows 11 con GPUs integradas.
- Qwen3-VL-2B en formato GGUF Q4_K_M superó tanto a Qwen3-VL-4B como a Qwen3.5 2B para esta tarea específica.
- Otros modelos probados no lograron producir resultados aceptables para la extracción de JSON en este tipo de hardware.
El artículo cuestiona por qué el modelo es ignorado por las evaluaciones y pregunta si otros modelos pueden manejar la extracción de JSON en equipos "de baja gama", teléfonos o Raspberry Pis.