연구자들은 '문맥 내 답변'이라는 진단을 도입하여, 패킹된 리더 문맥에서 정답이 연속된 스팬으로 남아있는지 측정하며, 이는 예산 제약 검색 증강 생성에서 문서 리콜보다 우수하다고 주장합니다. 또한 관련성, 커버리지, 대표성, 다양성을 함께 최적화하기 위해 리더-문맥 구성을 예산부여 단조 서브모듈러 최대화로 공식화하는 것을 제안합니다.
- 문맥 내 답변은 리콜보다 답변 F1을 더 잘 예측하며(r=0.39-0.55 vs. ~0.31), HotpotQA에서 답변 품질을 5배 분리합니다.
- 서브모듈러 패커는 160토큰 예산과 3B 리더를 사용할 때 HotpotQA에서 MMR 및 단순 패킹보다 최대 +5.1 F1 더 우수합니다.
- 이 이점은 다중hop 구조, 효과적인 검색, 바인딩된 예산, 그리고 증거 밀도가 병목 현상인 리더가 필요할 때 발생합니다.
- 진단에 따르면, 휴리스틱에 대한 이점은 7B 모델에 의해 흡수되고 14B 모델에서는 역전됩니다.
이 연구는 리콜 대신 답변 생존을 최적화하는 것이 제한된 문맥 예산을 가진 특정 다중hop 시나리오에서 성능을 향상시킨다는 것을 보여줍니다.