LLMs не справляются с выявлением различий между элементами в оценках чтения
Исследование показывает, что большие языковые модели не способны надёжно измерять различие между элементами в оценках чтения. Хотя некоторые модели демонстрируют слабую согласованность с человеческими калиброванными оценками — в диапазоне от 0,152 до 0-241 — текущие LLMs не достаточно отражают, как оценочные элементы различают студентов разных уровней подготовки.