बड़े भाषा मॉडल का उपयोग करके Linux/bash परीक्षणों का स्वचालित मूल्यांकन

यह अध्ययन इस बात का मूल्यांकन करता है कि चार अग्रणी बड़े भाषा मॉडल (GPT, Claude Opus, Gemini और GLM) छोटे Linux/bash कमांड उत्तरों को ग्रेड करते समय विशेषज्ञ निर्णय के समान हो सकते हैं। शोध दिखाता है कि संरचित प्रॉम्प्ट मानव ग्रेडर्स के साथ सहमति को काफी बढ़ाते हैं, कंप्यूटिंग शिक्षा में AI-सहायता वाले मूल्यांकन के लिए एक ढांचा स्थापित करते हैं।

अध्ययन में सूचना पुनर्प्राप्ति (L1) से उन्नत सिस्टम प्रबंधन (L4) तक चार-स्तरीय संज्ञानात्मक वर्गीकरण का उपयोग किया गया।
मॉडलों का परीक्षण तीन विशेषज्ञ शिक्षकों द्वारा ग्रेड किए गए दूसरे वर्ष के कंप्यूटर इंजीनियरिंग छात्रों के 1200 वास्तविक उत्तरों पर किया गया।
रूब्रिक-मार्गदर्शित प्रॉम्प्टिंग के साथ Gemini~3.0 Pro ने उच्चतम मानव-AI सहमति प्राप्त की (ICC(3,1) = 0.888, MAE = 0.10)।
सहमति वर्गीकरण स्तर बढ़ने के साथ लगातार कम होती गई, सबसे बड़ी असंगतियाँ उच्च स्तरों पर हुईं।
सभी मॉडलों में, प्रदर्शन पर रूब्रिक की गुणवत्ता का प्रभाव प्रदाता चयन की तुलना में अधिक था।

ये परिणाम दिखाते हैं कि प्रश्न की जटिलता सटीक ग्रेडिंग में LLMs द्वारा सामना किए जाने वाले कठिनाई के लिए एक विश्वसनीय पूर्वानुमानक है और यह निर्धारित करने के लिए एक स्थानांतरणीय मूल्यांकन प्रोटोकॉल प्रदान करती है कि किस प्रश्न को मानव समीक्षा की आवश्यकता है।