أداة مفتوحة المصدر جديدة تسمى Visual Calendar Comprehension Benchmark (VCCB) تقيس مدى قدرة النماذج متعددة الوسائط على استخراج بيانات منظمة من لقطات شاشة تقويم العرض الأسبوعي. تختبر المنصة دقة الاستخراج عبر تسع صور مُولَّدة في Outlook وHCL Notes وThunderbird، بما في ذلك لقطات الشاشة النظيفة والصور ذات التشويه المنظوري.
- يحقق البشر دقة تبلغ حوالي 99%، بينما تحقق النماذج المستضافة المتقدمة مثل Opus نسبة تتراوح بين 80-85%.
- تصل نماذج الفئة الوسطى مثل ChatGPT free إلى حوالي 75%، في حين تتراوح أداء النماذج المحلية وClaude Haiku بين 38-58%.
صُممت المنصة لمساعدة المستخدمين على قياس فقدان الدقة الناتج عن كوانتزة النموذج وتباينات الـ prompt.
يدعو المؤلف المجتمع إلى تشغيل المنصة محليًا وإرسال النتائج إلى لوحة المتصدرين العامة لفهم فجوات الأداء في قدرات الذكاء الاصطناعي المحلي بشكل أفضل.