El estudio demuestra que los sumideros de atención, el colapso de representación y la estratificación de normas no son exclusivos de las arquitecturas transformer, sino consecuencias inherentes del enrutamiento basado en contenido bajo una métrica de similitud fija. Establece una identidad que muestra las funciones de atención softmax como agregación ponderada por Boltzmann sobre distancias euclidianas con normas de clave constantes, volviéndolo ciego a la magnitud de la clave debido a la omisión de un término de norma específico. Este marco predice que cualquier enrutador que utilice una métrica mal ajustada a sus representaciones compensará concentrando el enrutamiento y colapsando las representaciones enrutadas. Los autores validan esta hipótesis en diversos modelos, incluidos nueve transformers preentrenados, redes de atención gráfica, modelos de espacio de estado selectivo, mezcladores recurrentes y capas residuales aprendidas. Los resultados experimentales confirman que todas las arquitecturas probadas exhiben esta misma firma de colapso independientemente de su dominio o estructura específicos. Además, las ablaciones dentro del modelo aíslan el mecanismo de enrutamiento como la causa principal en lugar de dinámicas de entrenamiento incidentales. Se muestra que la aparición de este fenómeno depende de la fuerza del freno posicional que acompaña a la puntuación de contenido, lo cual puede desplazar el efecto a lo largo de su rango. Sin embargo, el mecanismo subyacente permanece invariante y no requiere estratificación de normas, ya que los enrutadores con claves normalizadas por norma exhiben el mismo comportamiento de concentración.