Este estudio evalúa si cuatro modelos de lenguaje grandes de vanguardia (GPT, Claude Opus, Gemini y GLM) pueden aproximar el juicio experto al calificar respuestas cortas a comandos de Linux/bash. La investigación demuestra que los prompts estructurados mejoran significativamente la concordancia con los evaluadores humanos, estableciendo un marco para la evaluación asistida por IA en la educación informática.
- El estudio utilizó una taxonomía cognitiva de cuatro niveles que va desde la recuperación de información (L1) hasta la gestión avanzada del sistema (L4).
- Los modelos se probaron con 1200 respuestas reales de estudiantes de segundo año de Ingeniería Informática calificadas por tres instructores expertos.
- Gemini~3.0 Pro con prompts guiados por rúbricas logró la mayor concordancia humano-IA (ICC(3,1) = 0.888, MAE = 0.10).
- La concordancia disminuyó consistentemente a medida que aumentaba el nivel de la taxonomía, con las mayores discrepancias ocurriendo en niveles más altos.
- En todos los modelos, la calidad de la rúbrica tuvo un efecto mayor en el rendimiento que la elección del proveedor.
Estos resultados muestran que la complejidad de la pregunta es un predictor confiable de la dificultad que enfrentan los LLM al calificar con precisión y proporcionan un protocolo de evaluación transferible para determinar qué preguntas requieren revisión humana.