EduArt基准测试显示多模态LLM高估了艺术史知识

该论文介绍了EduArt，这是一个教育级别的基准测试，用于评估多模态大语言模型的艺术史知识和视觉推理能力。它包含871个由人类编写的问题，源自意大利中学练习和美国大学先修课程（AP）艺术史考试。

作者认为，单一格式的基准测试会高估模型的可靠性，而绘制能力图谱对于在艺术史研究中的负责任使用至关重要。