이 연구는 4개의 최첨단 대규모 언어 모델(GPT, Claude Opus, Gemini, GLM)이 짧은 Linux/bash 명령 응답을 채점할 때 전문가의 판단을 근사할 수 있는지를 평가합니다. 이 연구는 구조화된 프롬프트가 인간 채점자와의 일치도를 크게 향상시켜 컴퓨팅 교육에서 AI 지원 평가의 프레임워크를 확립함을 보여줍니다.

  • 이 연구는 정보 검색(L1)부터 고급 시스템 관리(L4)까지의 4단계 인지 분류법을 사용했습니다.
  • 모델은 3명의 전문가 강사가 채점한 2학년 컴퓨터 공학 학생들의 실제 응답 1200개를 대상으로 테스트되었습니다.
  • 기준 가이드 프롬프팅을 사용한 Gemini~3.0 Pro가 가장 높은 인간-AI 일치도(ICC(3,1) = 0.888, MAE = 0.10)를 달성했습니다.
  • 분류 수준이 증가함에 따라 일치도는 일관되게 감소했으며, 가장 큰 차이는 상위 수준에서 발생했습니다.
  • 모든 모델에 걸쳐 기준의 품질이 제공업체 선택보다 성능에 더 큰 영향을 미쳤습니다.

이러한 결과는 질문의 복잡성이 LLM이 정확하게 채점하는 데 직면하는 난이도의 신뢰할 수 있는 예측 변수임을 보여주며, 어떤 질문에 인간 검토가 필요한지 결정하기 위한 이전 가능한 평가 프로토콜을 제공합니다.