Cette étude évalue si quatre grands modèles de langage (GPT, Claude Opus, Gemini et GLM) peuvent approximer le jugement d'experts lors de la notation de réponses courtes aux commandes Linux/bash. La recherche démontre que les invites structurées améliorent considérablement l'accord avec les correcteurs humains, établissant un cadre pour l'évaluation assistée par IA dans l'éducation informatique.

  • L'étude a utilisé une taxonomie cognitive à quatre niveaux allant de la récupération d'informations (L1) à la gestion avancée des systèmes (L4).
  • Les modèles ont été testés sur 1200 réponses réelles d'étudiants en génie informatique de deuxième année, notées par trois instructeurs experts.
  • Gemini~3.0 Pro avec une invite guidée par les critères a obtenu le plus haut accord humain-IA (ICC(3,1) = 0.888, MAE = 0,10).
  • L'accord a diminué de manière cohérente à mesure que le niveau de la taxonomie augmentait, les plus grandes divergences survenant aux niveaux supérieurs.
  • Pour tous les modèles, la qualité des critères avait un effet plus important sur les performances que le choix du fournisseur.

Ces résultats montrent que la complexité des questions est un prédicteur fiable de la difficulté à laquelle les LLM sont confrontés pour noter avec précision et fournissent un protocole d'évaluation transférable pour déterminer quelles questions nécessitent une révision humaine.