著者は、クラウド依存なしでNPC間の直接対話を可能にする大規模言語モデル(LLM)NPC向けに設計された、完全にローカルの音声から音声へのバックエンドを公開しました。このシステムは、音声からテキストへの変換、ローカルLLM、およびテキストから音声への変換コンポーネントを統合し、NPC同士が対話したり、文脈を保持したり、将来のプレイヤーとの相互作用に影響を与えたりできるようにします。

  • Llama 3.2 3B(VR用)または4070 Ti上の7Bを使用して、自然な会話の流れをシミュレートするために、最初の音声までの時間(TTFA)で400〜600msのレイテンシーターゲットを実現。
  • 共有生成ロックにより、一度に1人のNPCのみが音声を生成し、GPUの過負荷を防ぎながら即座にキャラクターを切り替えることを可能にします。
  • アーキテクチャはWebSocketベースであり、提供されたスクリプトを通じてUnity、Unreal、および他のエンジンとの統合をサポートしています。
  • バックグラウンドのゲームマネージャーAIが行動メモを注入して物語を誘導し、NPCは個々の文脈と個性を維持します。

このソリューションにより、開発者は没入感のある自己持続型のNPC対話を実装でき、プレイヤーが直接的な回答を受け取るだけでなく、有機的な相互作用を目撃することでプレイヤーの没入感を高めます。