أطلق الباحثون نظام Ex-Omni، وهو نظام عام يولد استجابات متعددة الوسائط من مدخلات نصية أو صوتية. ينتج النموذج نص الاستجابة، ووحدات الكلام، أو الصوت المفكوك، ومعاملات شكل الوجه (blendshape) ذات الأبعاد 52.
- يولد النص والكلام ورسوم الوجه المتحركة ثلاثية الأبعاد في وقت واحد.
- يُخرج معاملات شكل الوجه ذات الأبعاد 52 للعرض الواقعي للوجه الناطق.
- يتضمن وحدات زمنية للتشغيل لفك تشفير الصوت وأدوات عرض أشكال الوجه.
- يدعم قوالب الشبكة EmoTalk وClaire للتصور.
يوفر الإطلاق خط أنابيب استنتاج كاملًا وواجهة Gradio، مما يسمح للمستخدمين بنشر النظام محليًا للتفاعل متعدد الوسائط.