Исследование ставит под сомнение предположение о том, что большие языковые модели лучше оценивают собственные выходные данные, чем генерируют их, и показывает, что точность генерации превышает точность самооценки на трёх из четырёх протестированных бенчмарков. Исследование использует контролируемую настройку контекстного QA для изоляции производительности оценки от помех параметрических знаний.
- На SQuAD 2.0, DROP, HotpotQA и MuSiQue модели генерировали ответы точнее, чем оценивали их, за исключением многошагового MuSiQue.
- Анализ внимания показывает, что во время оценки модели обращают внимание на контекстные отрывки в 3–5 раз реже, чем во время генерации, и почти не читают кандидатский ответ.
- Эксперименты с дообучением LoRA подтверждают, что эта асимметрия не является артефактом обучения; дообучение на генерации вызывает чрезмерное принятие, а дообучение на оценке ухудшает производительность генерации.
Эти выводы ставят под сомнение ключевые предположения в конвейерах самооценки, указывая на то, что текущие методы могут быть фундаментально ошибочными из-за того, как модели обрабатывают информацию во время суждения по сравнению с генерацией.