메시지 전달 언어 모델은 직접 스레드 통신을 통해 효율적인 추론을 가능하게 함

연구자들은 대규모 언어 모델 스레드가 경량 send 및 receive 프리미티브를 사용하여 직접 통신할 수 있는 프레임워크인 메시지 전달 언어 모델(MPLMs)을 소개했습니다. 이는 전통적인 fork-join 패러다임의 확장성 한계를 해결합니다.

MPLMs는 중복된 컨텍스트 공유를 피하여 통신 비용을 줄이고, preemption을 활용하여 유망하지 않은 분기를 조기에 종료합니다.
스도쿠 퍼즐에서 MPLMs는 직렬 Chain-of-Thought나 병렬 fork-join 방식보다 점근적으로 더 작은 컨텍스트를 필요로 하며, 미세 조정된 모델이 표준 접근 방식에 도전하는 25x25 퍼즐을 해결할 수 있게 합니다.
3-SAT 작업에서 preemption 기능은 유망하지 않은 분기를 종료하여 효율성을 향상시킵니다.
적절히 프롬프트된 대규모 사전 학습 모델은 MPLM 프로토콜을 따를 수 있으며, 인기 있는 fork-join 접근 방식과 비교하여 긴 컨텍스트 질문 응답에서 경쟁력 있는 결과를 달성합니다.

이 프레임워크는 직접적인 스레드 간 통신과 피어 정보를 기반으로 한 조기 종료를 가능하게 함으로써 LLM 추론을 위한 더 효율적인 확장 메커니즘을 제공합니다.