Пользователь сообщает, что Qwen3-VL-2B — единственная жизнеспособная модель для визуального и языкового анализа, способная надёжно извлекать данные из изображений в формат JSON на устройствах с низкой спецификацией, таких как ноутбуки Intel i3 с 8 ГБ ОЗУ. Автор отмечает, что, несмотря на её производительность, модель отсутствует в основных бенчмарках, таких как Artificial Analysis и Open LLM Leaderboard.

  • Тестирование проводилось на трёх «картофельных» ноутбуках под управлением Windows 11 со встроенными графическими процессорами.
  • Qwen3-VL-2B в формате GGUF Q4_K_M превзошла как Qwen3-VL-4B, так и Qwen3.5 2B в этой конкретной задаче.
  • Другие протестированные модели не смогли выдать приемлемые результаты для извлечения JSON на таком оборудовании.

В статье ставится вопрос, почему модель игнорируется бенчмарками, и спрашивается, могут ли другие модели справляться с извлечением JSON на «картофельных» устройствах, телефонах или Raspberry Pi.