Studi ini mengevaluasi apakah empat Model Bahasa Besar (LLM) terdepan (GPT, Claude Opus, Gemini, dan GLM) dapat mengaproksimasi penilaian ahli saat menilai respons perintah Linux/bash yang pendek. Penelitian ini menunjukkan bahwa prompt terstruktur secara signifikan meningkatkan kesesuaian dengan penilai manusia, menetapkan kerangka kerja untuk penilaian yang dibantu AI dalam pendidikan komputing.
- Studi ini menggunakan taksonomi kognitif empat tingkat mulai dari pengambilan informasi (L1) hingga manajemen sistem tingkat lanjut (L4).
- Model diuji pada 1200 respons nyata dari mahasiswa Teknik Komputer tahun kedua yang dinilai oleh tiga instruktur ahli.
- Gemini~3.0 Pro dengan prompt yang dipandu rubrik mencapai kesesuaian manusia-AI tertinggi (ICC(3,1) = 0,888, MAE = 0,10).
- Kesesuaian menurun secara konsisten seiring meningkatnya tingkat taksonomi, dengan perbedaan terbesar terjadi pada tingkat yang lebih tinggi.
- Di seluruh model, kualitas rubrik memiliki pengaruh yang lebih besar terhadap kinerja daripada pilihan penyedia.
Hasil-hasil ini menunjukkan bahwa kompleksitas pertanyaan adalah prediktor yang andal atas kesulitan yang dihadapi LLM dalam menilai secara akurat dan menyediakan protokol evaluasi yang dapat ditransfer untuk menentukan pertanyaan mana yang memerlukan peninjauan manusia.