Структура перед коллапсом: Преходящая семантическая геометрия в предсказании следующего токена
В этой статье исследуется, как языковые модели обучаются латентной семантической структуре, несмотря на обучение с использованием one-hot меток, которые теоретически устраняют общую статистику контекста. Авторы выявляют напряжение между теорией Neural Collapse и наблюдаемой способностью моделей захватывать категориальные признаки, такие как свойства объектов.