تقيّم هذه الدراسة ما إذا كان يمكن لأربعة نماذج لغوية كبيرة رائدة (GPT، Claude Opus، Gemini، وGLM) تقريب الحكم الخبير عند تصحيح إجابات أوامر Linux/bash القصيرة. تُظهر الأبحاث أن المطالبات المهيكلة تحسن بشكل كبير الاتفاق مع المصححين البشريين، مما يؤطر إطاراً للتقييم المدعوم بالذكاء الاصطناعي في تعليم الحوسبة.
- استخدمت الدراسة تصنيفاً معرفياً من أربع مستويات يتراوح من استرجاع المعلومات (L1) إلى إدارة الأنظمة المتقدمة (L4).
- تم اختبار النماذج على 1200 إجابة حقيقية من طلاب الهندسة الكهربائية في السنة الثانية، قام بتصحيحها ثلاثة مدرسين خبراء.
- حقق Gemini~3.0 Pro مع المطالبات الموجهة بالمعايير أعلى درجة من الاتفاق بين الإنسان والذكاء الاصطناعي (ICC(3,1) = 0.888، MAE = 0.10).
- انخفض الاتفاق بشكل متسق مع زيادة مستوى التصنيف، حيث حدثت أكبر الفروقات عند المستويات الأعلى.
- عبر جميع النماذج، كان لمعايير الجودة تأثير أكبر على الأداء من اختيار المزود.
تُظهر هذه النتائج أن تعقيد السؤال هو مؤشر موثوق لصعوبة المهام التي تواجهها نماذج اللغات الكبيرة في التصحيح الدقيق، ويوفر بروتوكول تقييم قابل للنقل لتحديد الأسئلة التي تتطلب مراجعة بشرية.