В этой статье исследуется, как языковые модели обучаются латентной семантической структуре, несмотря на обучение с использованием one-hot меток, которые теоретически устраняют общую статистику контекста. Авторы выявляют напряжение между теорией Neural Collapse и наблюдаемой способностью моделей захватывать категориальные признаки, такие как свойства объектов.

  • Сбалансированная классификация one-hot толкает представления к равному расстоянию, игнорируя сходство входных данных.
  • Языковые модели всё же представляют латентные классы (например, существительные среднего размера и жёсткости), несмотря на режимы обучения с one-hot метками.
  • Были использованы три синтетических контролируемых настройки, где входы имеют латентные семантические факторы, сопоставленные с различными метками.
  • Семантическая геометрия возникает рано в процессе обучения, при этом представления группируются по общим атрибутам без явного обучения с учителем.
  • Эта структура преходяща; достаточная ёмкость и время приводят к симметричному состоянию, где все представления равно удалены друг от друга.

Исследование предлагает предварительную модификацию модели неограниченных признаков для захвата этой возникающей семантической геометрии, наблюдаемой во время фазового перехода.