研究者らは「文脈内回答」という、パックされたリーダー文脈において正解回答が連続したスパンとして残存するかどうかを測定する診断手法を導入し、予算制約付きの検索拡張生成においてドキュメントリコールよりも優れていると主張している。また、関連性、網羅性、代表性、多様性を同時に最適化するために、リーダー文脈の構築を予算付き単調サブモジュラ最大化として定式化する提案を行っている。

  • 文脈内回答はリコールよりも回答F1をよりよく予測し(r=0.39-0.55 vs. ~0.31)、HotpotQAで回答品質を5段階に分離する。
  • サブモジュラパッカーは、160トークンの予算と3Bのリーダーを用いた場合、HotpotQAにおいてMMRや単純なパッキングよりも最大+5.1のF1スコアを上回る。
  • この利点は、マルチホップ構造、効果的な検索、バインドされた予算、および証拠密度がボトルネックとなるリーダーを必要とする。
  • 診断結果によれば、ヒューリスティクスに対する優位性は7Bモデルによって吸収され、14Bモデルでは逆転する。

本研究は、リコールではなく回答の生存を最適化することが、限られた文脈予算を持つ特定のマチホップシナリオにおいてパフォーマンスを向上させることを示している。