作者提出了 Review Residuals,这是一种机制,通过一个学习到的、依赖于输入的、由当前状态和提议更新共同决定的门控来缩放每个子层的更新。该方法旨在在提交更新之前评估其可靠性,解决了标准残差连接始终以固定系数添加更新的局限性。
- 门控函数使用应用于前一个隐藏状态和提议更新的 RMSNorm 的权重的 sigmoid。
- 凸(Highway 风格)门控形式在超过 ~20 层后会导致梯度消失,而加法形式在所有测试深度下都能稳定训练。
- 从零开始在五个尺寸(60M-1B 参数)上训练的模型在小规模上没有显示出优势。
- 在 590M 参数时,Review Residuals 显著优于参数匹配的 Highway gates 和标准残差(p<0.05)。
- 性能优势随模型尺寸增加而增大,在 1B 规模上显示出更大的优势。
作者认为这很重要,因为它提供了一种稳定、可扩展的改进,超越了仅在更大模型规模下才显现的标准残差连接。