研究人员引入了“上下文内答案”这一诊断指标,用于衡量黄金答案在打包的读者上下文中是否作为连续跨度存活,并认为它在预算受限的检索增强生成中优于文档召回率。他们还提出将读者上下文构建视为带预算的单调子模态最大化问题,以联合优化相关性、覆盖率、代表性和多样性。

  • 上下文内答案比召回率更好地预测答案F1(r=0.39-0.55 vs. ~0.31),并在HotpotQA上将答案质量分离了五倍。
  • 在HotpotQA上,子模态打包器在160-token预算和3B读者的情况下,比MMR和朴素打包法最多高出+5.1 F1。
  • 增益需要多跳结构、有效的检索、绑定的预算以及证据密度是瓶颈的读者。
  • 如诊断所解释,相对于启发式方法的优势被7B模型吸收,并被14B模型逆转。

该研究表明,在特定的多跳场景中,优化答案存活率而非召回率可以提高性能,尤其是在上下文预算有限的情况下。