Пилотный бенчмарк по глубине доказательств для вызовов LLM утверждает, что калибровка должна выходить за рамки фактической корректности и включать эпистемическое загрязнение и утечку фрейминга. Исследование определяет 'k*' как точку насыщения доказательствами, где надежность максимальна, отличая ее от стандартных метрик top-k ретривера или плотности состояния.
- Калибровка только по корректности может быть слепой; в двойном инструментальном сканировании фактическая корректность оставалась на уровне 1.000 для каждого k ≥ 1, тогда как сигналы загрязнения достигали 0.05–0.08.
- Оптимальное по надежности k* варьируется для пяти типов задач: фактический recall, multi-hop, отслеживание состояния, разрешение конфликтов и соблюдение ограничений.
- Фиксированные значения по умолчанию, такие как top-3, top-5 или заполнение окна контекста, не рекомендуются в пользу измерения k* для каждой модели, типа задачи, формата контекста и оси надежности.
Этот подход помогает системам RAG, агентам с долгой памятью и маршрутизаторам моделей рассматривать глубину доказательств как измеряемый параметр развертывания, а не догадку, улучшая аудируемость и контроль затрат.