Le benchmark EduArt révèle que les LLM multimodaux surestiment leurs connaissances en histoire de l'art

L'article présente EduArt, un benchmark de niveau éducatif pour évaluer la connaissance historique de l'art et le raisonnement visuel dans les grands modèles de langage multimodaux. Il comprend 871 questions rédigées par des humains issues d'exercices de lycée italiens et d'examens AP (Advanced Placement) d'histoire de l'art aux États-Unis.

Douze modèles de six familles de fournisseurs ont été évalués dans des conditions de réponse uniquement et de motivation.
La précision à choix multiples a saturé près du plafond pour six modèles, ne parvenant pas à distinguer les capacités de pointe.
Le format était un prédicteur fort de la précision ; Claude Opus 4.6 est passé de plus de 94 % en QCM à 23,9 % en complétion ouverte.
Le benchmark a montré de fortes propriétés psychométriques avec une discrimination moyenne de 0,514.

Les auteurs soutiennent que les benchmarks à format unique surestiment la fiabilité des modèles et que la cartographie des profils de capacité est essentielle pour une utilisation responsable dans la recherche en histoire de l'art.