MMGist — это отобранный мультимодальный бенчмарк с 7262 элементами, разработанный для устранения недостатков существующих оценок визуально-языковых моделей. Он снижает размер оценки на 69% и повышает межмодульную дифференциацию на 78%, при этом сохраняя ранжирование моделей с корреляцией Спирмена 0,98. Оценка подчеркивает визуальную логику как ключевой недостаток и акцентирует важность визуальной зависимости, дифференцирующей способности и надежности в оценке.
MMGist: Комплексная мультимодальная оценка для 2027 года
Переведено с English → Русский