メッセージパッシング言語モデルは直接スレッド通信により効率的な推論を可能にする

研究者らは、大規模言語モデルのスレッドが軽量な送受信プリミティブを使用して直接通信できるようにするフレームワークであるメッセージパッシング言語モデル（MPLMs）を紹介した。これは、従来のフォーク・ジョインパラダイムのスケーラビリティの限界に対処する。

MPLMsは冗長なコンテキスト共有を回避することで通信コストを削減し、プリエンプションを利用して有望でない枝を早期に終了させる。
スードゥパズルにおいて、MPLMsは直列のChain-of-Thoughtや並列のフォーク・ジョイン手法よりも漸近的により小さなコンテキストを必要とし、標準的なアプローチでは困難な25x25のパズルを微調整されたモデルで解決可能にする。
3-SATタスクでは、プリエンプション機能有望でない枝を終了させることで効率を向上させる。
適切にプロンプトされた大規模事前学習モデルはMPLMプロトコルに従うことができ、人気のあるフォーク・ジョイン手法と比較して長文コンテキストの質問応答において競争力のある結果を達成する。

このフレームワークは、スレッド間通信とピア情報に基づく早期終了を可能にすることで、LLM推論のためのより効率的なスケーリングメカニズムを提供する。