El artículo presenta EduArt, un benchmark a nivel educativo para evaluar el conocimiento histórico-artístico y el razonamiento visual en modelos de lenguaje grandes multimodales. Comprende 871 preguntas elaboradas por humanos procedentes de ejercicios escolares italianos y exámenes de Historia del Arte de la Prueba de Aptitud Académica Avanzada (AP) de EE. UU.
- Se evaluaron doce modelos de seis familias de proveedores bajo condiciones de respuesta únicamente y con motivación.
- La precisión en preguntas de opción múltiple se saturó cerca del techo para seis modelos, sin lograr distinguir capacidades de vanguardia.
- El formato fue un predictor fuerte de la precisión; Claude Opus 4.6 cayó de más del 94% en opción múltiple al 23,9% en completado abierto.
- El benchmark mostró fuertes propiedades psicométricas con una discriminación media de 0,514.
Los autores argumentan que los benchmarks de formato único sobreestiman la fiabilidad de los modelos y que mapear perfiles de capacidad es esencial para un uso responsable en la erudición histórico-artística.