Visual Calendar Comprehension Benchmark (VCCB) नामक एक नया ओपन-सोर्स टूल मापता है कि मल्टीमोडल मॉडल्स सप्ताह-व्यू कैलेंडर स्क्रीनशॉट्स से संरचित डेटा कितनी अच्छी तरह निकाल सकते हैं। बेंचमार्क Outlook, HCL Notes और Thunderbird में रेंडर किए गए नौ छवियों पर एक्सट्रैक्शन सटीकता का परीक्षण करता है, जिसमें साफ़ स्क्रीनशॉट्स और परिप्रेक्ष्य-विषम फोटो शामिल हैं।
- मानव ~99% सटीकता प्राप्त करते हैं, जबकि Opus जैसे फ्रंटियर होस्टेड मॉडल्स 80-85% स्कोर करते हैं।
- ChatGPT free जैसे मिड-टियर मॉडल्स लगभग 75% तक पहुँचते हैं, जबकि लोकल मॉडल्स और Claude Haiku 38-58% के बीच प्रदर्शन करते हैं।
- बेंचमार्क का डिज़ाइन उपयोगकर्ताओं को मॉडल क्वांटीकरण और प्रॉम्प्ट विविधताओं से होने वाली सटीकता हानि को मात्रात्मक रूप से समझने में मदद करने के लिए किया गया है।
लेखक समुदाय को बेंचमार्क को लोकल पर चलाने और लोकल AI क्षमताओं में प्रदर्शन अंतरों को बेहतर ढंग से समझने के लिए परिणाम एक पब्लिक लीडरबोर्ड पर सबमिट करने का आमंत्रण देता है।