LLM хуже оценивают, чем генерируют в контекстном QA

Исследование ставит под сомнение предположение о том, что большие языковые модели лучше оценивают собственные выходные данные, чем генерируют их, и показывает, что точность генерации превышает точность самооценки на трёх из четырёх протестированных бенчмарков. Исследование использует контролируемую настройку контекстного QA для изоляции производительности оценки от помех параметрических знаний.

На SQuAD 2.0, DROP, HotpotQA и MuSiQue модели генерировали ответы точнее, чем оценивали их, за исключением многошагового MuSiQue.
Анализ внимания показывает, что во время оценки модели обращают внимание на контекстные отрывки в 3–5 раз реже, чем во время генерации, и почти не читают кандидатский ответ.
Эксперименты с дообучением LoRA подтверждают, что эта асимметрия не является артефактом обучения; дообучение на генерации вызывает чрезмерное принятие, а дообучение на оценке ухудшает производительность генерации.

Эти выводы ставят под сомнение ключевые предположения в конвейерах самооценки, указывая на то, что текущие методы могут быть фундаментально ошибочными из-за того, как модели обрабатывают информацию во время суждения по сравнению с генерацией.