Os autores caracterizam o gateamento de memória de padrões durante a inferência em um pipeline de NLP clínico em escala de produção que emparelha um gerador Llama-3.3 70B com um verificador MMed-Llama-3.1 70B através de 167,034 narrativas do PMC-Patients.

  • Aprender regras de filtragem diretamente a partir das rejeições do verificador falhou porque elas estavam muito dispersas entre formas distintas.
  • Uma regra mais simples usando uma ontologia clínica fixa capturou 49,734 relações que violam a ontologia em um conjunto retido sem o verificador.
  • Quatro dos cinco filtros de perguntas e respostas falharam; o quinto teve sucesso ao verificar se as entidades suportam a pergunta, sinalizando respostas rejeitadas 1.84 vezes mais frequentemente.
  • Um filtro é seletivo apenas quando testa a mesma evidência que o verificador pondera, não quando imita a saída do verificador.

O estudo demonstra que designs de memória natural podem falhar silenciosamente em escala e que a seletividade do gateamento pré-geração depende de sondar a pergunta que o verificador responde.