Les auteurs caractérisent le filtrage par mémoire de motifs au moment de l'inférence dans un pipeline de NLP clinique à échelle de production, qui associe un générateur Llama-3.3 70B à un vérificateur MMed-Llama-3.1 70B sur 167 034 récits PMC-Patients.
- L'apprentissage des règles de filtrage directement à partir des rejets du vérificateur a échoué car elles étaient trop dispersées entre des formes distinctes.
- Une règle plus simple utilisant une ontologie clinique fixe a capturé 49 734 relations violant l'ontologie sur un ensemble conservé, sans le vérificateur.
- Quatre des cinq filtres de réponse aux questions ont échoué ; le cinquième a réussi en vérifiant si les entités soutenaient la question, signalant les réponses rejetées 1,84 fois plus souvent.
- Un filtre n'est sélectif que lorsqu'il teste les mêmes preuves que celles pondérées par le vérificateur, et non lorsqu'il imite la sortie du vérificateur.
L'étude démontre que les conceptions de mémoire naturelles peuvent échouer silencieusement à grande échelle et que la sélectivité du filtre avant génération dépend de l'interrogation de la question à laquelle le vérificateur répond.