Рассуждение как динамика аттракторов: Извлечение латентной памяти через минимизацию энергии с весами Гиббса

В данной работе большие языковые модели переосмысливаются как высокоразмерные плотные ассоциативные памяти, где корректные рассуждения соответствуют глубоким бассейнам притяжения на энергетическом ландшафте. Авторы предлагают механизм извлечения, который выбирает несколько путей рассуждения и взвешивает их по обратной энергии для аппроксимации распределения равновесия.

Корректные цепочки рассуждений моделируются как глубокие и широкие бассейны притяжения, тогда как галлюцинации рассматриваются как острые, нестабильные локальные минимумы.
Для взвешивания траекторий рассуждения по их обратной энергии используется мера Гиббса спектральной энтропии ($P \propto e^{-\beta E}$).

Этот механизм, вдохновленный физикой, улучшает производительность Microsoft Phi-3.5 на GSM8K с 84,7% до 90,1%, что дает прирост в 5,38%.

Исследование демонстрирует, что процесс вывода точнее моделируется как динамическое оседание в бассейне притяжения, а не как жадное предсказание следующего токена.