NPC間会話用のオープンソースローカルLLM NPCバックエンド

著者は、クラウド依存なしでNPC間の直接対話を可能にする大規模言語モデル（LLM）NPC向けに設計された、完全にローカルの音声から音声へのバックエンドを公開しました。このシステムは、音声からテキストへの変換、ローカルLLM、およびテキストから音声への変換コンポーネントを統合し、NPC同士が対話したり、文脈を保持したり、将来のプレイヤーとの相互作用に影響を与えたりできるようにします。

Llama 3.2 3B（VR用）または4070 Ti上の7Bを使用して、自然な会話の流れをシミュレートするために、最初の音声までの時間（TTFA）で400〜600msのレイテンシーターゲットを実現。
共有生成ロックにより、一度に1人のNPCのみが音声を生成し、GPUの過負荷を防ぎながら即座にキャラクターを切り替えることを可能にします。
アーキテクチャはWebSocketベースであり、提供されたスクリプトを通じてUnity、Unreal、および他のエンジンとの統合をサポートしています。
バックグラウンドのゲームマネージャーAIが行動メモを注入して物語を誘導し、NPCは個々の文脈と個性を維持します。

このソリューションにより、開発者は没入感のある自己持続型のNPC対話を実装でき、プレイヤーが直接的な回答を受け取るだけでなく、有機的な相互作用を目撃することでプレイヤーの没入感を高めます。