Estructura antes del colapso: Geometría semántica transitoria en la predicción del siguiente token

Este artículo investiga cómo los modelos de lenguaje aprenden una estructura semántica latente a pesar de ser entrenados con etiquetas one-hot que teóricamente eliminan las estadísticas de contexto compartido. Los autores identifican una tensión entre la teoría del Colapso Neural y la capacidad observada de los modelos para capturar características categóricas como las propiedades de los objetos.

La clasificación one-hot equilibrada empuja a las representaciones a estar igualmente distantes, ignorando la similitud de entrada.
Los modelos de lenguaje aún representan clases latentes (por ejemplo, sustantivos medianos y rígidos) a pesar de los regímenes de entrenamiento one-hot.
Se utilizaron tres configuraciones sintéticas controladas donde las entradas tienen factores semánticos latentes mapeados a etiquetas distintas.
La geometría semántica emerge temprano en el entrenamiento, con representaciones que se agrupan por atributos compartidos sin supervisión explícita.
Esta estructura es transitoria; la capacidad y el tiempo suficientes conducen a un estado simétrico donde todas las representaciones están igualmente separadas.

El estudio propone una modificación preliminar al modelo de características no restringidas para capturar esta geometría semántica emergente observada durante la transición de fase.