Estructura antes del colapso: Geometría semántica transitoria en la predicción del siguiente token
Este artículo investiga cómo los modelos de lenguaje aprenden una estructura semántica latente a pesar de ser entrenados con etiquetas one-hot que teóricamente eliminan las estadísticas de contexto compartido. Los autores identifican una tensión entre la teoría del Colapso Neural y la capacidad observada de los modelos para capturar características categóricas como las propiedades de los objetos.