В статье представлен EduArt, образовательный бенчмарк для оценки знаний по истории искусства и визуального мышления в мультимодальных больших языковых моделях. Он включает 871 вопрос, созданный людьми, из итальянских школьных упражнений и экзаменов US Advanced Placement по истории искусства.
- Двенадцать моделей от шести семейств провайдеров были оценены в условиях только ответа и с мотивацией.
- Точность в тестах с множественным выбором достигла потолка для шести моделей, не позволив различить возможности переднего края.
- Формат оказался сильным предиктором точности; Claude Opus 4.6 упал с более чем 94% в тестах с множественным выбором до 23.9% в открытых заданиях на завершение.
- Бенчмарк продемонстрировал сильные психометрические свойства со средним дискриминантом 0.514.
Авторы утверждают, что бенчмарки с одним форматом переоценивают надежность моделей и что картирование профилей возможностей необходимо для ответственного использования в историко-художественных исследованиях.