В данном исследовании оценивается, могут ли четыре передовые большие языковые модели (GPT, Claude Opus, Gemini и GLM) приближаться к экспертной оценке при проверке коротких ответов на команды Linux/bash. Исследование показывает, что структурированные промпты значительно улучшают согласование с оценками людей, создавая основу для ИИ-ассистированной оценки в образовании по вычислительной технике.

  • В исследовании использовалась четырехуровневая когнитивная таксономия, охватывающая от извлечения информации (L1) до продвинутого управления системой (L4).
  • Модели тестировались на 1200 реальных ответах студентов второго курса компьютерной инженерии, оцененных тремя экспертами.
  • Gemini~3.0 Pro с промптом, основанным на рубрике, достигла наибольшего согласования между человеком и ИИ (ICC(3,1) = 0.888, MAE = 0.10).
  • Согласование последовательно снижалось по мере увеличения уровня таксономии, при этом наибольшие расхождения наблюдались на более высоких уровнях.
  • Для всех моделей качество рубрики оказывало большее влияние на результат, чем выбор провайдера.

Эти результаты показывают, что сложность вопроса является надежным предиктором трудностей, с которыми сталкиваются LLM при точной оценке, и предоставляет переносимый протокол оценки для определения вопросов, требующих проверки человеком.