消息传递语言模型通过直接线程通信实现高效推理

研究人员引入了消息传递语言模型（MPLMs），这是一个框架，允许大型语言模型线程使用轻量级的发送和接收原语进行直接通信，从而解决传统 fork-join 范式的可扩展性限制。

MPLMs 通过避免冗余上下文共享来降低通信成本，并利用抢占机制尽早终止没有前景的分支。
在数独谜题中，MPLMs 所需的上下文渐近地小于串行 Chain-of-Thought 或并行 fork-join 方法，使得经过微调的模型能够解决挑战标准方法的 25x25 谜题。
在 3-SAT 任务中，抢占能力通过终止没有前景的分支来提高效率。
适当提示的大型预训练模型可以遵循 MPLM 协议，与流行的 fork-join 方法相比，在长上下文问答方面取得了具有竞争力的结果。

该框架通过启用直接的线程间通信和基于对等信息的早期终止，为 LLM 推理提供了更高效的扩展机制。