Recuperación del subespacio de señal asintótica en modelos de atención softmax

Este estudio investiga los principios teóricos detrás de los mecanismos de atención softmax analizando un modelo estilizado donde un vector de consulta se aprende mediante ascenso de gradiente estocástico. Los autores explotan la simetría del modelo para derivar un objetivo poblacional y caracterizar la ecuación diferencial ordinaria límite que rige la dinámica de aprendizaje. Mediante el empleo de herramientas de aproximación estocástica y teoría de sistemas dinámicos, establecen una conexión rigurosa entre el algoritmo de aprendizaje estocástico y su límite determinista. Bajo supuestos adecuados de escalado en altas dimensiones y condiciones estándar del tamaño de paso, la investigación demuestra que la consulta aprendida converge casi seguramente al subespacio de señal unidimensional. Esta convergencia implica que la consulta recupera asintóticamente la dirección informativa latente hasta una ambigüedad de signo intrínseca. Los hallazgos proporcionan una base teórica para comprender la atención como un procedimiento de extracción de señal en entornos ruidosos de alta dimensión.