В данной статье предлагается использовать теорию термодинамических фазовых переходов для понимания динамики выравнивания языковых моделей в процессе постобучения, в частности, через призму кристаллизации материалов. Авторы утверждают, что эта физическая парадигма обеспечивает обоснованный словарь для рассуждений о том, как изменяются модели и откуда берется структура, индуцированная выравниванием.
- Исследование выделяет три различные фазы в задачах генерации случайных чисел: фазу жидкости с высокой энтропией в предварительно обученных моделях, фазу нуклеации во время контролируемой дообучения, когда поведение сводится к распределению одного семени, и фазу установления, когда обучение с подкреплением перераспределяет вероятность, сохраняя концентрацию на вариантах с данным семенем.
- Предложены интуитивные метрики для проверки переходов между этими фазами, валидация которых выполнена в диапазоне случайных задач.
- Авторы предполагают, что импорт физических парадигм, таких как кристаллизация, может помочь ответить на фундаментальные вопросы о том, почему выравнивание сходится именно там, где оно сходится, и чего оно не может изменить.
Этот подход направлен на предоставление исследователям лучших инструментов для понимания истоков и ограничений структуры, индуцированной выравниванием в языковых моделях.