Penulis telah merilis backend suara-ke-suara sepenuhnya lokal yang dirancang untuk NPC Model Bahasa Besar (LLM) yang memungkinkan interaksi langsung antar-NPC tanpa ketergantungan cloud. Sistem ini mengintegrasikan komponen suara-ke-teks, LLM lokal, dan teks-ke-suara untuk memungkinkan NPC saling berbicara, mempertahankan konteks, dan memengaruhi interaksi pemain di masa depan.
- Target latensi 400-600ms Waktu ke Audio Pertama (TTFA) menggunakan Llama 3.2 3B untuk VR atau 7B pada 4070 Ti untuk mensimulasikan aliran percakapan alami.
- Kunci generasi bersama memastikan hanya satu NPC yang menghasilkan audio pada satu waktu, mencegah kelebihan beban GPU sambil memungkinkan pengalihan karakter instan.
- Arsitektur berbasis WebSocket, mendukung integrasi dengan Unity, Unreal, dan mesin lainnya melalui skrip yang disediakan.
- AI Game Manager latar belakang menyuntikkan catatan perilaku untuk mengarahkan narasi, sementara NPC mempertahankan konteks dan kepribadian individu mereka.
Solusi ini memungkinkan pengembang menerapkan dialog NPC yang imersif dan berkelanjutan sendiri yang meningkatkan imersi pemain dengan menyaksikan interaksi organik daripada hanya menerima jawaban langsung.