Una nueva arquitectura Transformer introduce ramas globales y locales separadas para el modelado de lenguaje, utilizando FiLM para coordinarlas dinámicamente. Los experimentos muestran que supera a los modelos de rama única y de doble rama debilitados en conjuntos de datos pequeños como TinyShakespeare y WikiText-2, con resultados estables en múltiples semillas y patrones de modulación selectiva por canal.
Transformer de doble rama coordinado por FiLM para modelado de lenguaje
Traducido del English → Español