論文では、マルチモーダル大規模言語モデルの美術史的知識と視覚的推論を評価するための教育レベルのベンチマークであるEduArtを紹介しています。これには、イタリアの中学校の演習と米国のAP(上級課程)美術史試験から871件の人間による作成問題が含まれています。
- 6つのプロバイダーファミリーからの12モデルが、回答のみと動機の条件で評価されました。
- 複数の選択肢の精度は6つのモデルで天井値付近に飽和し、最先端の能力を区別できませんでした。
- フォーマットは精度の強力な予測因子であり、Claude Opus 4.6は複数選択で94%以上からオープンエンドの完成問題で23.9%に低下しました。
- ベンチマークは0.514の平均弁別力を持つ強い心理計量的特性を示しました。
著者たちは、単一フォーマットのベンチマークがモデルの信頼性を過大評価しており、美術史研究における責任ある使用には能力プロファイルのマッピングが不可欠であると主張しています。