El benchmark VCCB open-source evalúa LLMs multimodales en la lectura de capturas de calendario

Una nueva herramienta de código abierto llamada Visual Calendar Comprehension Benchmark (VCCB) mide qué tan bien los modelos multimodales pueden extraer datos estructurados a partir de capturas de pantalla de calendarios en vista semanal. El benchmark prueba la precisión de extracción en nueve imágenes renderizadas en Outlook, HCL Notes y Thunderbird, incluyendo capturas limpias y fotos con distorsión de perspectiva.

Los humanos logran ~99% de precisión, mientras que los modelos alojados de vanguardia como Opus obtienen 80-85%.
Modelos de gama media como ChatGPT free alcanzan aproximadamente el 75%, mientras que los modelos locales y Claude Haiku se desempeñan entre 38-58%.
El benchmark está diseñado para ayudar a los usuarios a cuantificar la pérdida de precisión causada por la cuantización del modelo y las variaciones de prompt.

El autor invita a la comunidad a ejecutar el benchmark localmente y enviar resultados a un tablero de clasificación público para comprender mejor las brechas de rendimiento en las capacidades de IA local.