LLM хуже оценивают, чем генерируют в контекстном QA
Исследование ставит под сомнение предположение о том, что большие языковые модели лучше оценивают собственные выходные данные, чем генерируют их, и показывает, что точность генерации превышает точность самооценки на трёх из четырёх протестированных бенчмарков. Исследование использует контролируемую настройку контекстного QA для изоляции производительности оценки от помех параметрических знаний.