Исследователи представляют Языковые модели с передачей сообщений (MPLMs), фреймворк, который позволяет потокам больших языковых моделей общаться напрямую с помощью легких примитивов отправки и получения, решая проблемы масштабируемости традиционных парадигм fork-join.
- MPLMs снижают затраты на коммуникацию за счет избегания избыточного разделения контекста и используют прерывание для раннего завершения бесперспективных ветвей.
- На задачах судоку MPLMs требуют асимптотически меньший контекст, чем последовательный Chain-of-Thought или параллельные методы fork-join, что позволяет дообученной модели решать головоломки размером 25x25, бросающие вызов стандартным подходам.
- В задачах 3-SAT возможность прерывания повышает эффективность за счет завершения бесперспективных ветвей.
- Большие предварительно обученные модели, правильно настроенные через промпты, могут следовать протоколу MPLM, достигая конкурентоспособных результатов в вопросах с длинным контекстом по сравнению с популярными подходами fork-join.
Этот фреймворк предлагает более эффективный механизм масштабирования для рассуждений LLM за счет прямой межпотоковой коммуникации и раннего завершения на основе информации от сверстников.