Para peneliti memperkenalkan "jawaban-dalam-konteks", sebuah diagnostik yang mengukur apakah jawaban emas bertahan sebagai rentang kontigu dalam konteks pembaca yang dipadatkan, berargumen bahwa ini lebih unggul daripada recall dokumen untuk generasi yang diperkaya pencarian dengan batasan anggaran. Mereka juga mengusulkan merumuskan konstruksi konteks-pembaca sebagai maksimisasi submodular monoton teranggaran untuk mengoptimalkan relevansi, cakupan, representativitas, dan keragaman secara bersamaan.

  • Jawaban-dalam-konteks memprediksi F1 jawaban lebih baik daripada recall (r=0.39-0.55 vs. ~0.31) dan memisahkan kualitas jawaban lima kali lipat pada HotpotQA.
  • Pengepak submodular mengalahkan MMR dan pengepakan naif hingga +5.1 F1 pada HotpotQA dengan anggaran 160 token dan pembaca 3B.
  • Peningkatan memerlukan struktur multi-hop, pengambilan yang efektif, anggaran terikat, dan pembaca di mana kepadatan bukti adalah hambatan.
  • Keuntungan atas heuristik diserap oleh model 7B dan dibalik oleh model 14B, sebagaimana dijelaskan oleh diagnostik tersebut.

Studi ini menunjukkan bahwa mengoptimalkan kelangsungan jawaban daripada recall meningkatkan kinerja dalam skenario multi-hop tertentu dengan anggaran konteks terbatas.