一个名为 Visual Calendar Comprehension Benchmark (VCCB) 的新开源工具衡量多模态模型从周视图日历截图中提取结构化数据的能力。该基准测试在 Outlook、HCL Notes 和 Thunderbird 渲染的九张图片上测试提取准确率,包括清晰截图和带有透视畸变的照片。
- 人类准确率约为 ~99%,而 Opus 等前沿托管模型得分为 80-85%。
- ChatGPT free 等中端模型达到约 75%,而本地模型和 Claude Haiku 的表现介于 38-58% 之间。
- 该基准测试旨在帮助用户量化由模型量化和提示词变化引起的准确率损失。
作者邀请社区在本地运行该基准测试并将结果提交至公共排行榜,以更好地了解本地 AI 能力的性能差距。