Reddit 上的一位用户解释说,如果在超分过程中没有调整 `layer_scalar` 的值,RYS 工具会破坏 Gemma 4 模型。由于该标量在每一层都是乘性应用的,不进行调整会导致模型错误。
- 正确的调整公式为 `s^(1/N)`,其中 `s` 是原始标量,`N` 是某一层被复制的次数。
- 一个实现此修复的 pull request 已提交至 RYS 仓库以供参考。
Reddit 上的一位用户解释说,如果在超分过程中没有调整 `layer_scalar` 的值,RYS 工具会破坏 Gemma 4 模型。由于该标量在每一层都是乘性应用的,不进行调整会导致模型错误。