Автоматическая оценка экзаменов по Linux/bash с помощью больших языковых моделей

В данном исследовании оценивается, могут ли четыре передовые большие языковые модели (GPT, Claude Opus, Gemini и GLM) приближаться к экспертной оценке при проверке коротких ответов на команды Linux/bash. Исследование показывает, что структурированные промпты значительно улучшают согласование с оценками людей, создавая основу для ИИ-ассистированной оценки в образовании по вычислительной технике.

В исследовании использовалась четырехуровневая когнитивная таксономия, охватывающая от извлечения информации (L1) до продвинутого управления системой (L4).
Модели тестировались на 1200 реальных ответах студентов второго курса компьютерной инженерии, оцененных тремя экспертами.
Gemini~3.0 Pro с промптом, основанным на рубрике, достигла наибольшего согласования между человеком и ИИ (ICC(3,1) = 0.888, MAE = 0.10).
Согласование последовательно снижалось по мере увеличения уровня таксономии, при этом наибольшие расхождения наблюдались на более высоких уровнях.
Для всех моделей качество рубрики оказывало большее влияние на результат, чем выбор провайдера.

Эти результаты показывают, что сложность вопроса является надежным предиктором трудностей, с которыми сталкиваются LLM при точной оценке, и предоставляет переносимый протокол оценки для определения вопросов, требующих проверки человеком.