Leyes de conservación para arquitecturas neuronales modernas
Este artículo presenta un marco unificado para identificar leyes de conservación en el flujo del gradiente para arquitecturas neuronales modernas. Cubre redes feedforward con activaciones GELU, SiLU y SwiGLU, atención multi-cabeza con codificaciones posicionales sinusoidales y rotatorias, y modelos Mixture-of-Experts bajo varios esquemas de gating. Los experimentos validan los invariantes predichos, apoyando los hallazgos teóricos.