أصدر المؤلف خلفية تحويل الكلام إلى كلام محلية بالكامل مصممة لوكلاء NPCs المعتمدين على نماذج لغوية كبيرة (LLM)، مما يتيح تفاعلات مباشرة بين NPCs دون الاعتماد على السحابة. يدمج النظام مكونات تحويل الكلام إلى نص، وLLM محلي، وتحويل النص إلى كلام للسماح للـ NPCs بالتحدث مع بعضها البعض، والحفاظ على السياق، والتأثير في تفاعلات اللاعب المستقبلية.
- أهداف زمن الاستجابة من 400 إلى 600 مللي ثانية للوصول إلى الصوت الأول (TTFA) باستخدام Llama 3.2 3B لواقع الافتراضي أو 7B على بطاقة 4070 Ti لمحاكاة تدفق المحادثة الطبيعية.
- يضمن قفل التوليد المشترك أن NPC واحد فقط يولد صوتًا في كل مرة، مما يمنع تحميل GPU الزائد مع السماح بالتبديل الفوري للشخصيات.
- يعتمد الهيكل على WebSocket، ويدعم التكامل مع Unity وUnreal ومحركات أخرى عبر السكربتات المقدمة.
- يقوم ذكاء اصطناعي لإدارة اللعبة في الخلفية بحقن ملاحظات سلوكية لتوجيه السرد، بينما تحافظ NPCs على سياقاتها وشخصياتها الفردية.
تتيح هذه الحل للمطورين تنفيذ محادثات NPCs غامرة ومستدامة ذاتيًا تعزز انغماس اللاعب من خلال مشاهدة التفاعلات العضوية بدلاً من مجرد تلقي إجابات مباشرة.