El artículo presenta EduArt, un benchmark a nivel educativo para evaluar el conocimiento histórico-artístico y el razonamiento visual en modelos de lenguaje grandes multimodales. Comprende 871 preguntas elaboradas por humanos procedentes de ejercicios escolares italianos y exámenes de Historia del Arte de la Prueba de Aptitud Académica Avanzada (AP) de EE. UU.

  • Se evaluaron doce modelos de seis familias de proveedores bajo condiciones de respuesta únicamente y con motivación.
  • La precisión en preguntas de opción múltiple se saturó cerca del techo para seis modelos, sin lograr distinguir capacidades de vanguardia.
  • El formato fue un predictor fuerte de la precisión; Claude Opus 4.6 cayó de más del 94% en opción múltiple al 23,9% en completado abierto.
  • El benchmark mostró fuertes propiedades psicométricas con una discriminación media de 0,514.

Los autores argumentan que los benchmarks de formato único sobreestiman la fiabilidad de los modelos y que mapear perfiles de capacidad es esencial para un uso responsable en la erudición histórico-artística.