作者对生产级临床 NLP 管道中的推理时模式记忆门控进行了刻画,该管道将 Llama-3.3 70B 生成器与 MMed-Llama-3.1 70B 验证器配对,处理了 167,034 条 PMC-Patients 叙事。
- 直接从验证器的拒绝中学习过滤规则失败了,因为这些规则在不同形式之间分布过于稀疏。
- 使用固定临床本体论的更简单规则在未使用验证器的保留集上捕获了 49,734 个违反本体论的关系。
- 五个问答过滤器中有四个失败;第五个通过检查实体是否支持问题而成功,标记被拒绝的答案的频率高出 1.84 倍。
- 仅当过滤器测试验证器权衡的相同证据时,它才是有选择性的,而不是在模仿验证器的输出时。
该研究表明,自然记忆设计在大规模下可能会无声失败,且预生成门控的选择性取决于探测验证器所回答的问题。