Um benchmark piloto sobre profundidade de evidências para chamadas LLM argumenta que a calibração deve se estender além da correção factual para incluir contaminação epistêmica e vazamento de enquadramento. O estudo define 'k*' como o ponto de saturação de evidências onde a confiabilidade é maximizada, distinguindo-o das métricas padrão top-k do recuperador ou de densidade de estado.

  • A calibração apenas por correção pode ser cega; em uma varredura duplamente instrumentada, a correção factual permaneceu plana em 1.000 para cada k ≥ 1 enquanto os sinais de contaminação atingiram 0.05–0.08.
  • O k* ótimo para confiabilidade varia entre cinco tipos de tarefas: recall factual, multi-hop, rastreamento de estado, resolução de conflitos e cumprimento de restrições.
  • Valores fixos padrão como top-3, top-5 ou preencher a janela de contexto são desencorajados em favor de medir k* por modelo, tipo de tarefa, formato de contexto e eixo de confiabilidade.

Essa abordagem ajuda sistemas RAG, agentes de memória longa e roteadores de modelos a tratar a profundidade de evidências como um parâmetro de implantação medido em vez de um palpite, melhorando a auditabilidade e o controle de custos.