Исследование ставит под сомнение предположение о том, что большие языковые модели лучше оценивают собственные выходные данные, чем генерируют их, и показывает, что точность генерации превышает точность самооценки на трёх из четырёх протестированных бенчмарков. Исследование использует контролируемую настройку контекстного QA для изоляции производительности оценки от помех параметрических знаний.

  • На SQuAD 2.0, DROP, HotpotQA и MuSiQue модели генерировали ответы точнее, чем оценивали их, за исключением многошагового MuSiQue.
  • Анализ внимания показывает, что во время оценки модели обращают внимание на контекстные отрывки в 3–5 раз реже, чем во время генерации, и почти не читают кандидатский ответ.
  • Эксперименты с дообучением LoRA подтверждают, что эта асимметрия не является артефактом обучения; дообучение на генерации вызывает чрезмерное принятие, а дообучение на оценке ухудшает производительность генерации.

Эти выводы ставят под сомнение ключевые предположения в конвейерах самооценки, указывая на то, что текущие методы могут быть фундаментально ошибочными из-за того, как модели обрабатывают информацию во время суждения по сравнению с генерацией.