Los autores caracterizan el enrutamiento de memoria de patrones durante la inferencia en una canalización de NLP clínico a escala de producción que empareja un generador Llama-3.3 70B con un verificador MMed-Llama-3.1 70B a través de 167,034 narrativas de PMC-Patients.
- Aprender reglas de filtrado directamente desde los rechazos del verificador falló porque estaban demasiado dispersas entre formas distintas.
- Una regla más simple que usa una ontología clínica fija capturó 49,734 relaciones que violan la ontología en un conjunto retenido sin el verificador.
- Cuatro de cinco filtros de preguntas y respuestas fallaron; el quinto tuvo éxito al verificar si las entidades apoyan la pregunta, marcando las respuestas rechazadas 1.84 veces más a menudo.
- Un filtro es selectivo solo cuando prueba la misma evidencia que pondera el verificador, no cuando imita la salida del verificador.
El estudio demuestra que los diseños de memoria natural pueden fallar en silencio a escala y que la selectividad del gateo previo a la generación depende de sondear la pregunta que responde el verificador.