Para penulis mengkarakterisasi gating memori pola saat inferensi dalam pipeline NLP klinis skala produksi yang menggabungkan generator Llama-3.3 70B dengan verifier MMed-Llama-3.1 70B di atas 167.034 narasi PMC-Patients.

  • Pembelajaran aturan filter langsung dari penolakan verifier gagal karena aturan tersebut tersebar terlalu tipis di berbagai bentuk yang berbeda.
  • Aturan yang lebih sederhana menggunakan ontologi klinis tetap berhasil menangkap 49.734 hubungan yang melanggar ontologi pada set yang dipisahkan, tanpa verifier.
  • Empat dari lima filter pertanyaan-jawaban gagal; yang kelima berhasil dengan memeriksa apakah entitas mendukung pertanyaan tersebut, menandai jawaban yang ditolak 1,84 kali lebih sering.
  • Sebuah filter hanya selektif ketika menguji bukti yang sama yang ditimbang oleh verifier, bukan ketika meniru output verifier.

Studi ini menunjukkan bahwa desain memori alami dapat gagal secara diam-diam dalam skala besar dan bahwa selektivitas gating pra-pembuatan bergantung pada pengujian pertanyaan yang dijawab oleh verifier.