लेखक ने एक पूरी तरह से लोकल, ओपन-सोर्स स्पीच-टू-स्पीच बैकएंड जारी किया है जो Large Language Model NPCs के लिए डिज़ाइन किया गया है और क्लाउड निर्भरता के बिना सीधे NPC-से-NPC इंटरैक्शन को सक्षम बनाता है। सिस्टम स्पीच-टू-टेक्स्ट, एक लोकल LLM, और टेक्स्ट-टू-स्पीच घटकों को एकीकृत करता है ताकि NPCs एक-दूसरे से बात कर सकें, संदर्भ बनाए रख सकें और भविष्य के खिलाड़ी इंटरैक्शन को प्रभावित कर सकें।

  • लक्षित लेटेंसी 400-600ms टाइम टू फर्स्ट ऑडियो (TTFA) है, VR के लिए Llama 3.2 3B का उपयोग करके या 4070 Ti पर 7B का उपयोग करके प्राकृतिक संवाद प्रवाह की नकल करने के लिए।
  • एक शेयर्ड जनरेशन लॉक सुनिश्चित करता है कि एक समय में केवल एक NPC ऑडियो जनरेट कर रहा हो, GPU ओवरलोड को रोकते हुए और तुरंत कैरेक्टर स्विचिंग की अनुमति देता है।
  • आर्किटेक्चर WebSocket-आधारित है, प्रदान किए गए स्क्रिप्ट्स के माध्यम से Unity, Unreal और अन्य इंजनों के साथ एकीकरण का समर्थन करता है।
  • एक बैकग्राउंड गेम मैनेजर AI कथा को निर्देशित करने के लिए व्यवहार नोट्स इंजेक्ट करता है, जबकि NPCs व्यक्तिगत संदर्भ और व्यक्तित्व बनाए रखते हैं।

यह समाधान डेवलपर्स को इमर्सिव, स्व-सस्टेनिंग NPC संवाद लागू करने की अनुमति देता है जो केवल सीधे उत्तर प्राप्त करने के बजाय ऑर्गेनिक इंटरैक्शन देखने से खिलाड़ी की इमर्जन को बढ़ावा देते हैं।