著者らは、Llama-3.3 70BジェネレーターとMMed-Llama-3.1 70B検証者を組み合わせた、167,034件のPMC-Patientsナラティブを対象とした大規模臨床NLPパイプラインにおける、推論時のパターンメモリゲート制御を特徴づけた。

  • ベリファイアの拒否から直接学習フィルタリングルールを作成したのは失敗した。拒否理由が異なる形式に分散しすぎていたためだ。
  • 固定された臨床オントロジーを用いた単純なルールは、検証者なしで保留セットにおいて49,734件のオントロジー違反関係を検出できた。
  • 5つの質問応答フィルタのうち4つが失敗した。5つ目はエンティティが質問をサポートしているかを確認することで成功し、拒否された回答を1.84倍多くフラグ付けした。
  • フィルタは、検証者の出力を模倣するのではなく、検証者が重み付けするのと同じ証拠をテストする場合にのみ選択的である。

本研究は、自然なメモリ設計が大規模化すると静かに失敗し、生成前のゲート選択性はベリファイアが回答する質問をプローブすることに依存することを示している。