Análisis de expresividad del modelado jerárquico en Transformers profundos

Este artículo analiza la expresividad de los transformers profundos utilizando gramáticas de profundidad acotada. Construye transformers con atención posicional donde la profundidad del modelo escala linealmente con la profundidad de la gramática, y el número de neuronas crece cuadráticamente con las reglas de producción. Los resultados respaldan la hipótesis de representación lineal al mostrar que estos modelos pueden codificar estados gramaticales abstractos en subespacios de baja dimensión y separables linealmente.