Знайте перед тем, как извлекать: Калиброванное распределение бюджета на извлечение для генерации с дополнением извлечением

В этой статье представлен адаптивный фреймворк RAG, который распределяет бюджеты на извлечение, калибруя сигналы логарифмической вероятности последовательности и неопределенности префикс-логитов в вероятности правильности. Система решает, отвечать ли без внешних знаний (closed-book), извлекать компактный контекст (k=1), извлекать полный контекст (k=5) или воздержаться от ответа, основываясь на этих калиброванных вероятностях.

Диагностическая калибровка вне выборки значительно улучшает качество вероятностей, снижая ECE с 0.275 до 0.062 на TriviaQA и с 0.643 до 0.009 на Natural Questions.
Градированное извлечение улучшает границы для полного контекста и бюджета пассажей как для предложенного сигнала, так и для энтропии/разницы префикса в стиле TARG.
Эксперименты с порогами на отложенной выборке определяют точки развертывания для различных задач QA, включая TriviaQA, Natural Questions и MS MARCO.
Измеренная модель затрат показывает, что гейтинг не всегда быстрее: задержка увеличивается примерно на 27% на Qwen3-8B, в то время как экономия составляет около 8% на Qwen3-32B на границах с сопоставимой точностью.

Авторы считают это важным, потому что калиброванная уверенность служит переиспользуемым интерфейсом для распределения бюджета на извлечение при конкретных ограничениях задачи и системы, предлагая нюансированный взгляд на эффективность адаптивного RAG.