Эта статья представляет единый подход к выявлению законов сохранения в потоке градиентов для современных нейронных архитектур. В ней рассматриваются прямые сети с активациями GELU, SiLU и SwiGLU, мультихедовые внимательные механизмы с синусоидальными и вращательными позиционными кодами, а также модели смеси экспертов при различных схемах гейтинга. Эксперименты подтверждают предсказанные инварианты, что поддерживает теоретические результаты.
Законы сохранения для современных нейронных архитектур
Переведено с English → Русский