비주얼 캘린더 이해 벤치마크(VCCB)라는 새로운 오픈소스 도구는 멀티모달 모델이 주 뷰 캘린더 스크린샷에서 구조화된 데이터를 추출하는 능력을 측정합니다. 이 벤치마크는 Outlook, HCL Notes 및 Thunderbird로 렌더링된 9개의 이미지에 걸쳐 추출 정확도를 테스트하며, 여기에는 깨끗한 스크린샷과 원근 왜곡이 있는 사진이 포함됩니다.
- 인간은 약 99%의 정확도를 달성하는 반면, Opus와 같은 최첨단 호스팅 모델은 80-85%를 기록합니다.
- ChatGPT free와 같은 미드티어 모델은 약 75%에 도달하는 반면, 로컬 모델과 Claude Haiku는 38-58% 사이에서 성능을 발휘합니다.
이 벤치마크는 사용자가 모델 양자화 및 프롬프트 변형으로 인한 정확도 손실을 정량화할 수 있도록 설계되었습니다.
저자는 커뮤니티가 벤치마크를 로컬에서 실행하고 퍼블릭 리더보드에 결과를 제출하여 로컬 AI 능력의 성능 격차를 더 잘 이해하도록 초대합니다.