arxiv arXiv cs.CL · 2 小时前 · research

使用大型语言模型对Linux/bash考试进行自动评分

译自 English → 中文

本研究评估了四个前沿大型语言模型（GPT、Claude Opus、Gemini和GLM）在评分简短的Linux/bash命令响应时能否近似专家判断。研究表明，结构化提示显著提高了与人类评分者的一致性，为计算教育中的AI辅助评估建立了框架。

该研究使用了涵盖从信息检索（L1）到高级系统管理（L4）的四层认知分类法。
模型在由三位专家讲师评分的二年级计算机工程专业学生的1200个真实响应上进行了测试。
使用基于量规的提示的Gemini~3.0 Pro实现了最高的人机一致性（ICC(3,1) = 0.888，MAE = 0.10）。
随着分类法级别的增加，一致性持续下降，最高级别出现最大差异。
在所有模型中，量规质量对性能的影响大于提供商选择。

这些结果表明，问题复杂性是LLM在准确评分时面临难度的可靠预测指标，并提供了一种可转移的评估协议，以确定哪些问题需要人工审查。

重要性 2/3 arXiv cs.CL OpenAI Anthropic Google DeepMind Evaluation & benchmarks Research paper