Benchmark VCCB terbuka mengevaluasi LLM multimodal pada pembacaan tangkapan layar kalender

Sebuah alat open-source baru bernama Visual Calendar Comprehension Benchmark (VCCB) mengukur seberapa baik model multimodal dapat mengekstrak data terstruktur dari tangkapan layar kalender tampilan mingguan. Benchmark ini menguji akurasi ekstraksi pada sembilan gambar yang dirender di Outlook, HCL Notes, dan Thunderbird, termasuk tangkapan layar bersih dan foto dengan distorsi perspektif.

Manusia mencapai akurasi ~99%, sedangkan model terhosting terdepan seperti Opus mencetak skor 80-85%.
Model kelas menengah seperti ChatGPT free mencapai sekitar 75%, sedangkan model lokal dan Claude Haiku berkinerja antara 38-58%.

Benchmark ini dirancang untuk membantu pengguna mengkuantifikasi kehilangan akurasi yang disebabkan oleh kuantisasi model dan variasi prompt.

Penulis mengundang komunitas untuk menjalankan benchmark secara lokal dan mengirimkan hasil ke papan peringkat publik guna lebih memahami kesenjangan kinerja dalam kemampuan AI lokal.