أطلق الباحثون نظام Ex-Omni، وهو نظام عام يولد استجابات متعددة الوسائط من مدخلات نصية أو صوتية. ينتج النموذج نص الاستجابة، ووحدات الكلام، أو الصوت المفكوك، ومعاملات شكل الوجه (blendshape) ذات الأبعاد 52.

  • يولد النص والكلام ورسوم الوجه المتحركة ثلاثية الأبعاد في وقت واحد.
  • يُخرج معاملات شكل الوجه ذات الأبعاد 52 للعرض الواقعي للوجه الناطق.
  • يتضمن وحدات زمنية للتشغيل لفك تشفير الصوت وأدوات عرض أشكال الوجه.
  • يدعم قوالب الشبكة EmoTalk وClaire للتصور.

يوفر الإطلاق خط أنابيب استنتاج كاملًا وواجهة Gradio، مما يسمح للمستخدمين بنشر النظام محليًا للتفاعل متعدد الوسائط.