В этой статье исследуется, как языковые модели обучаются латентной семантической структуре, несмотря на обучение с использованием one-hot меток, которые теоретически устраняют общую статистику контекста. Авторы выявляют напряжение между теорией Neural Collapse и наблюдаемой способностью моделей захватывать категориальные признаки, такие как свойства объектов.
- Сбалансированная классификация one-hot толкает представления к равному расстоянию, игнорируя сходство входных данных.
- Языковые модели всё же представляют латентные классы (например, существительные среднего размера и жёсткости), несмотря на режимы обучения с one-hot метками.
- Были использованы три синтетических контролируемых настройки, где входы имеют латентные семантические факторы, сопоставленные с различными метками.
- Семантическая геометрия возникает рано в процессе обучения, при этом представления группируются по общим атрибутам без явного обучения с учителем.
- Эта структура преходяща; достаточная ёмкость и время приводят к симметричному состоянию, где все представления равно удалены друг от друга.
Исследование предлагает предварительную модификацию модели неограниченных признаков для захвата этой возникающей семантической геометрии, наблюдаемой во время фазового перехода.