Le benchmark VCCB évalue les LLM multimodaux sur la lecture de captures d'écran de calendrier

Un nouvel outil open-source appelé le Visual Calendar Comprehension Benchmark (VCCB) mesure dans quelle mesure les modèles multimodaux peuvent extraire des données structurées à partir de captures d'écran de calendriers en vue hebdomadaire. Le benchmark teste la précision de l'extraction sur neuf images rendues dans Outlook, HCL Notes et Thunderbird, y compris des captures d'écran propres et des photos déformées par la perspective.

Les humains atteignent une précision d'environ 99 %, tandis que les modèles hébergés de pointe comme Opus marquent 80 à 85 %.
Les modèles de milieu de gamme tels que ChatGPT free atteignent environ 75 %, tandis que les modèles locaux et Claude Haiku performent entre 38 et 58 %.

Le benchmark est conçu pour aider les utilisateurs à quantifier la perte de précision causée par la quantification des modèles et les variations de prompt.

L'auteur invite la communauté à exécuter le benchmark localement et à soumettre les résultats à un classement public afin de mieux comprendre les écarts de performance dans les capacités de l'IA locale.