ビジュアルカレンダー理解ベンチマーク(VCCB)と呼ばれる新しいオープンソースツールは、マルチモーダルモデルが週表示のカレンダーのスクリーンショットから構造化データを抽出できる能力を測定します。このベンチマークは、Outlook、HCL Notes、Thunderbirdでレンダリングされた9つの画像にわたる抽出精度をテストします。これには、クリーンなスクリーンショットと透視図法で歪んだ写真が含まれます。
- 人間は約99%の精度を達成しますが、Opusのような最先端のホストモデルは80〜85%です。
- ChatGPT freeなどのミッドティアモデルは約75%に達する一方、ローカルモデルやClaude Haikuは38〜58%のパフォーマンスを示します。
このベンチマークは、ユーザーがモデルの量子化とプロンプトのバリエーションによって引き起こされる精度の低下を定量化するのに役立つように設計されています。
著者はコミュニティに対して、ベンチマークをローカルで実行し、パブリックリーダーボードに結果を投稿して、ローカルAIの能力におけるパフォーマンスギャップをよりよく理解するよう呼びかけています。