Este estudo avalia se quatro grandes modelos de linguagem de ponta (GPT, Claude Opus, Gemini e GLM) podem aproximar-se do julgamento de especialistas ao avaliar respostas curtas a comandos de Linux/bash. A pesquisa demonstra que prompts estruturados melhoram significativamente o acordo com avaliadores humanos, estabelecendo um framework para avaliação assistida por IA na educação em computação.
- O estudo utilizou uma taxonomia cognitiva de quatro níveis, variando da recuperação de informação (L1) à gestão avançada do sistema (L4).
- Os modelos foram testados em 1200 respostas reais de estudantes de segundo ano de Engenharia de Computação avaliadas por três instrutores especialistas.
- Gemini~3.0 Pro com prompts guiados por rubricas alcançou o maior acordo humano-IA (ICC(3,1) = 0.888, MAE = 0.10).
- O acordo diminuiu consistentemente à medida que o nível da taxonomia aumentava, com as maiores discrepâncias ocorrendo nos níveis mais altos.
- Em todos os modelos, a qualidade da rubrica teve um efeito maior no desempenho do que a escolha do provedor.
Estes resultados mostram que a complexidade da pergunta é um preditor confiável da dificuldade que os LLMs enfrentam ao avaliar com precisão e fornecem um protocolo de avaliação transferível para determinar quais perguntas requerem revisão humana.