Исследователи предлагают «ответ в контексте» — диагностику, измеряющую, выживают ли золотые ответы как непрерывные фрагменты в упакованных контекстах читателя, утверждая, что она превосходит документный recall для извлечения с ограниченным бюджетом и дополненной генерации. Они также предлагают рассматривать построение контекста читателя как задачу монотонной субмодульной максимизации с бюджетом для совместной оптимизации релевантности, покрытия, репрезентативности и разнообразия.

  • Ответ в контексте лучше предсказывает ответ F1, чем recall (r=0.39-0.55 против ~0.31) и разделяет качество ответа в пять раз на HotpotQA.
  • Субмодульный упаковщик превосходит MMR и наивную упаковку до +5.1 F1 на HotpotQA при бюджете 160 токенов и читателе 3B.
  • Приросты требуют многошаговой структуры, эффективного извлечения, привязки бюджетов и читателей, где плотность доказательств является узким местом.
  • Преимущество перед эвристиками поглощается моделями 7B и обращается вспять моделями 14B, как объясняет диагностика.

Исследование демонстрирует, что оптимизация выживания ответа вместо recall улучшает производительность в конкретных многошаговых сценариях с ограниченным бюджетом контекста.