Открытый бенчмарк VCCB оценивает мультимодальные LLM на чтении скриншотов календаря

Новый инструмент с открытым исходным кодом под названием Visual Calendar Comprehension Benchmark (VCCB) измеряет, насколько хорошо мультимодальные модели могут извлекать структурированные данные из скриншотов календаря в недельном представлении. Бенчмарк тестирует точность извлечения на девяти изображениях, созданных в Outlook, HCL Notes и Thunderbird, включая чистые скриншоты и фотографии с перспективными искажениями.

Люди достигают точности ~99%, в то время как передовые хостинговые модели, такие как Opus, показывают 80-85%.
Модели среднего уровня, такие как ChatGPT free, достигают примерно 75%, тогда как локальные модели и Claude Haiku работают в диапазоне 38-58%.
Бенчмарк разработан, чтобы помочь пользователям количественно оценить потерю точности, вызванную квантованием моделей и вариациями промптов.

Автор приглашает сообщество запустить бенчмарк локально и отправить результаты на публичный лидерборд, чтобы лучше понять разрывы в возможностях локального ИИ.