EduArtベンチマークは、マルチモーダルLLMが美術史知識を過大評価していることを明らかにする

論文では、マルチモーダル大規模言語モデルの美術史的知識と視覚的推論を評価するための教育レベルのベンチマークであるEduArtを紹介しています。これには、イタリアの中学校の演習と米国のAP（上級課程）美術史試験から871件の人間による作成問題が含まれています。

著者たちは、単一フォーマットのベンチマークがモデルの信頼性を過大評価しており、美術史研究における責任ある使用には能力プロファイルのマッピングが不可欠であると主張しています。