Transformers de Ancho Variable Superan a Arquitecturas Uniformes

Una nueva arquitectura de transformador en forma de \x asigna anchos de capa variables, ensanchando las capas iniciales y finales mientras estrecha las intermedias. Reduce el ancho promedio de la capa, lo que lleva a un 22% menos de FLOPs y un 15% menos de memoria de caché KV, mientras supera a las líneas base uniformes en la pérdida de modelado de lenguaje en modelos de 200M a 2B parámetros.