Diagnóstico de resposta no contexto e empacotamento submodular melhoram RAG multi-hop com orçamento limitado

Pesquisadores introduzem "resposta no contexto", um diagnóstico que mede se as respostas gold sobrevivem como spans contíguos em contextos de leitor empacotados, argumentando que é superior ao recall de documentos para geração aumentada por recuperação com orçamento limitado. Eles também propõem formular a construção do contexto do leitor como maximização submodular monótona com orçamento para otimizar conjuntamente relevância, cobertura, representatividade e diversidade.

Resposta no contexto prevê melhor o F1 da resposta do que o recall (r=0.39-0.55 vs. ~0.31) e separa a qualidade da resposta em cinco vezes no HotpotQA.
O empacotador submodular supera MMR e empacotamento ingênuo em até +5.1 F1 no HotpotQA com um orçamento de 160 tokens e leitor de 3B.
Os ganhos requerem estrutura multi-hop, recuperação eficaz, orçamentos vinculados e leitores onde a densidade de evidência é o gargalo.
A vantagem sobre heurísticas é absorvida por modelos 7B e revertida por modelos 14B, conforme explicado pelo diagnóstico.

O estudo demonstra que otimizar para a sobrevivência da resposta em vez do recall melhora o desempenho em cenários multi-hop específicos com orçamentos de contexto limitados.