该论文介绍了EduArt,这是一个教育级别的基准测试,用于评估多模态大语言模型的艺术史知识和视觉推理能力。它包含871个由人类编写的问题,源自意大利中学练习和美国大学先修课程(AP)艺术史考试。

  • 来自六个提供商家族的十二个模型在仅回答和提供动机两种条件下进行了评估。
  • 六个模型的选择题准确率接近天花板,无法区分前沿能力。
  • 格式是准确性的强预测因子;Claude Opus 4.6的准确率从选择题的94%以上降至开放补全的23.9%。
  • 该基准测试表现出良好的心理测量学特性,平均鉴别力为0.514。

作者认为,单一格式的基准测试会高估模型的可靠性,而绘制能力图谱对于在艺术史研究中的负责任使用至关重要。