O artigo apresenta o EduArt, um benchmark educacional para avaliar o conhecimento histórico-artístico e o raciocínio visual em grandes modelos de linguagem multimodais. Ele compreende 871 perguntas elaboradas por humanos, provenientes de exercícios escolares italianos e exames de História da Arte do Advanced Placement (AP) dos EUA.

  • Doze modelos de seis famílias de provedores foram avaliados nas condições de resposta apenas e com motivação.
  • A precisão em múltipla escolha saturou perto do teto para seis modelos, não conseguindo distinguir capacidades de ponta.
  • O formato foi um forte preditor da precisão; Claude Opus 4.6 caiu de mais de 94% na múltipla escolha para 23,9% na conclusão aberta.
  • O benchmark apresentou fortes propriedades psicométricas com uma discriminação média de 0,514.

Os autores argumentam que benchmarks de formato único superestimam a confiabilidade dos modelos e que mapear perfis de capacidade é essencial para o uso responsável na erudição histórico-artística.