Qwen3-VL-2B destaca en la extracción de JSON en hardware de gama baja

Un usuario informa que Qwen3-VL-2B es el único modelo viable de visión y lenguaje para extraer datos de imágenes a JSON de forma fiable en dispositivos con especificaciones bajas, como portátiles Intel i3 con 8GB de RAM. El autor señala que, a pesar de su rendimiento, el modelo está ausente de las principales evaluaciones como Artificial Analysis y la Open LLM Leaderboard.

Las pruebas se realizaron en tres portátiles "de baja gama" ejecutando Windows 11 con GPUs integradas.
Qwen3-VL-2B en formato GGUF Q4_K_M superó tanto a Qwen3-VL-4B como a Qwen3.5 2B para esta tarea específica.
Otros modelos probados no lograron producir resultados aceptables para la extracción de JSON en este tipo de hardware.

El artículo cuestiona por qué el modelo es ignorado por las evaluaciones y pregunta si otros modelos pueden manejar la extracción de JSON en equipos "de baja gama", teléfonos o Raspberry Pis.