arxiv arXiv cs.CL · 1 小时前 · 来源： 5 天前 · research

Review Residuals 为 Transformer 引入更新条件门控

译自 English → 中文

作者提出了 Review Residuals，这是一种机制，通过一个学习到的、依赖于输入的、由当前状态和提议更新共同决定的门控来缩放每个子层的更新。该方法旨在在提交更新之前评估其可靠性，解决了标准残差连接始终以固定系数添加更新的局限性。

门控函数使用应用于前一个隐藏状态和提议更新的 RMSNorm 的权重的 sigmoid。
凸（Highway 风格）门控形式在超过 ~20 层后会导致梯度消失，而加法形式在所有测试深度下都能稳定训练。
从零开始在五个尺寸（60M-1B 参数）上训练的模型在小规模上没有显示出优势。
在 590M 参数时，Review Residuals 显著优于参数匹配的 Highway gates 和标准残差（p<0.05）。
性能优势随模型尺寸增加而增大，在 1B 规模上显示出更大的优势。

作者认为这很重要，因为它提供了一种稳定、可扩展的改进，超越了仅在更大模型规模下才显现的标准残差连接。

重要性 2/3 arXiv cs.CL Research paper Training methods