NC-FFN 引入自遗忘量化器以使 Transformer FFN 可解释

作者提出了一种用于 Transformer 中标准前馈网络 (FFN) 的参数中性替代方案，称为 NC-FFN，它使用显式的模糊集操作，如交集和有界正否定。这种设计使得每个隐藏单元都能携带显式的逻辑形式，同时在大规模下保持 GELU 基线的困惑度。

为了解决逻辑定位和性能衰退问题，该模型包含了一个带有学习遗忘率的序列量化器块。这种方法在训练早期恢复了语法缺陷，并适度提高了 LAMBADA 得分。生成的 FFN 变得可解释，其中单元充当语法许可检测器，对比较级或负极性项等许可因子做出反应，以预测被许可的词。这项工作提供了一种可读的、按构造即可解释的机制，用于说明 Transformer FFN 如何许可语言，同时提供了对表示和功能的解释。