Una nueva herramienta de código abierto llamada Visual Calendar Comprehension Benchmark (VCCB) mide qué tan bien los modelos multimodales pueden extraer datos estructurados a partir de capturas de pantalla de calendarios en vista semanal. El benchmark prueba la precisión de extracción en nueve imágenes renderizadas en Outlook, HCL Notes y Thunderbird, incluyendo capturas limpias y fotos con distorsión de perspectiva.
- Los humanos logran ~99% de precisión, mientras que los modelos alojados de vanguardia como Opus obtienen 80-85%.
- Modelos de gama media como ChatGPT free alcanzan aproximadamente el 75%, mientras que los modelos locales y Claude Haiku se desempeñan entre 38-58%.
- El benchmark está diseñado para ayudar a los usuarios a cuantificar la pérdida de precisión causada por la cuantización del modelo y las variaciones de prompt.
El autor invita a la comunidad a ejecutar el benchmark localmente y enviar resultados a un tablero de clasificación público para comprender mejor las brechas de rendimiento en las capacidades de IA local.