El benchmark EduArt revela que los LLM multimodales sobreestiman el conocimiento de historia del arte

El artículo presenta EduArt, un benchmark a nivel educativo para evaluar el conocimiento histórico-artístico y el razonamiento visual en modelos de lenguaje grandes multimodales. Comprende 871 preguntas elaboradas por humanos procedentes de ejercicios escolares italianos y exámenes de Historia del Arte de la Prueba de Aptitud Académica Avanzada (AP) de EE. UU.

Se evaluaron doce modelos de seis familias de proveedores bajo condiciones de respuesta únicamente y con motivación.
La precisión en preguntas de opción múltiple se saturó cerca del techo para seis modelos, sin lograr distinguir capacidades de vanguardia.
El formato fue un predictor fuerte de la precisión; Claude Opus 4.6 cayó de más del 94% en opción múltiple al 23,9% en completado abierto.
El benchmark mostró fuertes propiedades psicométricas con una discriminación media de 0,514.

Los autores argumentan que los benchmarks de formato único sobreestiman la fiabilidad de los modelos y que mapear perfiles de capacidad es esencial para un uso responsable en la erudición histórico-artística.