Sebuah benchmark percontohan pada kedalaman bukti untuk panggilan LLM berargumen bahwa kalibrasi harus melampaui kebenaran faktual untuk mencakup kontaminasi epistemik dan kebocoran framing. Studi ini mendefinisikan 'k*' sebagai titik jenuh bukti di mana keandalan dimaksimalkan, membedakannya dari metrik top-k atau densitas keadaan standar.

  • Kalibrasi hanya berdasarkan kebenaran dapat buta; dalam sweep berinstrumentasi ganda, kebenaran faktual tetap datar di 1.000 untuk setiap k ≥ 1 sementara sinyal kontaminasi mencapai 0.05–0.08.
  • k* optimal keandalan bervariasi di lima jenis tugas: recall faktual, multi-hop, pelacakan keadaan, resolusi konflik, dan pengikut batasan.
  • Default tetap seperti top-3, top-5, atau mengisi jendela konteks tidak disarankan demi mengukur k* per model, jenis tugas, format konteks, dan sumbu keandalan.

Pendekatan ini membantu sistem RAG, agen memori panjang, dan router model memperlakukan kedalaman bukti sebagai parameter penyebaran yang diukur daripada tebakan, meningkatkan kemampuan audit dan kontrol biaya.