저자들은 Llama-3.3 70B 생성기와 MMed-Llama-3.1 70B 검증자를 결합한 167,034건의 PMC-Patients 서술을 대상으로 한 대규모 임상 NLP 파이프라인에서 추론 시간 패턴 메모리 게이팅을 특성화했습니다.
- 검증자의 거부 사항에서 직접 학습된 필터링 규칙은 서로 다른 형태에 너무 넓게 분산되어 있어 실패했습니다.
- 고정된 임상 온톨로지를 사용한 단순한 규칙은 검증자 없이 홀드아웃 세트에서 49,734개의 온톨로지 위반 관계를 포착했습니다.
- 5개의 질문 답변 필터 중 4개가 실패했으며, 다섯 번째 필터는 엔티티가 질문을 지원하는지 확인함으로써 성공하여 거부된 답변을 1.84배 더 자주 플래그로 표시했습니다.
- 필터는 검증자의 출력을 모방하는 것이 아니라 검증자가 가중치를 두는 것과 동일한 증거를 테스트할 때만 선택적입니다.
이 연구는 자연스러운 메모리 설계가 규모가 커지면 조용히 실패하며, 생성 전 게이팅의 선택성은 검증자가 답변하는 질문을 조사하는 것에 달려 있음을 보여줍니다.