Авторы характеризуют шлюзование паттерн-памяти во время инференса в производственном конвейере клинического NLP, который связывает генератор Llama-3.3 70B с верификатором MMed-Llama-3.1 70B на основе 167,034 нарративов PMC-Patients.

  • Обучение правилам фильтрации непосредственно по отказам верификатора не удалось, потому что они были слишком размыты по различным формам.
  • Более простое правило, использующее фиксированную клиническую онтологию, выявило 49,734 отношения, нарушающие онтологию, на отложенном наборе данных без участия верификатора.
  • Четыре из пяти фильтров для ответов на вопросы не сработали; пятый сработал, проверяя, поддерживают ли сущности вопрос, и отмечая отвергнутые ответы в 1.84 раза чаще.
  • Фильтр является селективным только тогда, когда он тестирует те же доказательства, которые взвешивает верификатор, а не когда он имитирует вывод верификатора.

Исследование демонстрирует, что естественные конструкции памяти могут молча отказывать в масштабе, и что селективность шлюза до генерации зависит от исследования вопроса, на который отвечает верификатор.