Uma nova ferramenta de código aberto chamada Visual Calendar Comprehension Benchmark (VCCB) mede o quão bem os modelos multimodais podem extrair dados estruturados a partir de capturas de tela de calendários em visualização semanal. O benchmark testa a precisão da extração em nove imagens renderizadas no Outlook, HCL Notes e Thunderbird, incluindo capturas limpas e fotos com distorção de perspectiva.
- Humanos alcançam ~99% de precisão, enquanto modelos hospedados de ponta como Opus pontuam 80-85%.
- Modelos de nível intermediário como ChatGPT free atingem aproximadamente 75%, enquanto modelos locais e Claude Haiku performam entre 38-58%.
- O benchmark é projetado para ajudar os usuários a quantificar a perda de precisão causada pela quantização do modelo e variações de prompt.
O autor convida a comunidade a executar o benchmark localmente e enviar resultados para um leaderboard público para entender melhor as lacunas de desempenho nas capacidades de IA local.