La Red de Sincronización Frustrada (FSN) logra una pérdida de validación menor que un transformer RoPE-SwiGLU en cada época en tareas de texto y código a nivel de caracteres. Con un millón de parámetros, FSN converge a una pérdida de validación de 1.5953 ± 0.0014, superando la pérdida convergida del transformer de 1.611. Esta ventaja persiste hasta cuatro millones de parámetros, con evaluaciones en curso más allá de esa escala.
La Red de Sincronización Frustrada supera a los Transformers
Traducido del English → Español