Бенчмарк EduArt показывает, что мультимодальные LLM переоценивают знания по истории искусства

В статье представлен EduArt, образовательный бенчмарк для оценки знаний по истории искусства и визуального мышления в мультимодальных больших языковых моделях. Он включает 871 вопрос, созданный людьми, из итальянских школьных упражнений и экзаменов US Advanced Placement по истории искусства.

Двенадцать моделей от шести семейств провайдеров были оценены в условиях только ответа и с мотивацией.
Точность в тестах с множественным выбором достигла потолка для шести моделей, не позволив различить возможности переднего края.
Формат оказался сильным предиктором точности; Claude Opus 4.6 упал с более чем 94% в тестах с множественным выбором до 23.9% в открытых заданиях на завершение.
Бенчмарк продемонстрировал сильные психометрические свойства со средним дискриминантом 0.514.

Авторы утверждают, что бенчмарки с одним форматом переоценивают надежность моделей и что картирование профилей возможностей необходимо для ответственного использования в историко-художественных исследованиях.