本研究は、4つの最先端大規模言語モデル(GPT、Claude Opus、Gemini、GLM)が、短いLinux/bashコマンドの回答を採点する際に専門家の判断を近似できるかを評価する。この研究は、構造化されたプロンプトが人間採点者との合意を大幅に改善し、計算機教育におけるAI支援評価の枠組みを確立することを示している。

  • 本研究では、情報取得(L1)から高度なシステム管理(L4)までを含む4段階の認知分類法を使用した。
  • モデルは、3人の専門講師によって採点された2年生のコンピュータエンジニアリング学生の1200件の実際の回答でテストされた。
  • ルールベースのプロンプトを用いたGemini~3.0 Proが、最も高い人間-AI合意率(ICC(3,1) = 0.888、MAE = 0.10)を達成した。
  • 分類レベルが上昇するにつれて合意率は一貫して低下し、最大の乖離は上位レベルで発生した。
  • すべてのモデルにおいて、ルールの品質がプロバイダーの選択よりもパフォーマンスに大きな影響を与えた。

これらの結果は、質問の複雑さがLLMが正確に採点する際の難しさの信頼できる予測因子であることを示し、どの質問に人間のレビューが必要かを決めるための移植可能な評価プロトコルを提供する。