本研究评估了四个前沿大型语言模型(GPT、Claude Opus、Gemini和GLM)在评分简短的Linux/bash命令响应时能否近似专家判断。研究表明,结构化提示显著提高了与人类评分者的一致性,为计算教育中的AI辅助评估建立了框架。
- 该研究使用了涵盖从信息检索(L1)到高级系统管理(L4)的四层认知分类法。
- 模型在由三位专家讲师评分的二年级计算机工程专业学生的1200个真实响应上进行了测试。
- 使用基于量规的提示的Gemini~3.0 Pro实现了最高的人机一致性(ICC(3,1) = 0.888,MAE = 0.10)。
- 随着分类法级别的增加,一致性持续下降,最高级别出现最大差异。
- 在所有模型中,量规质量对性能的影响大于提供商选择。
这些结果表明,问题复杂性是LLM在准确评分时面临难度的可靠预测指标,并提供了一种可转移的评估协议,以确定哪些问题需要人工审查。