Ex-Omni يمكّن توليد رسوم متحركة ثلاثية الأبعاد للوجه لنماذج LLM متعددة الوسائط

أطلق الباحثون نظام Ex-Omni، وهو نظام عام يولد استجابات متعددة الوسائط من مدخلات نصية أو صوتية. ينتج النموذج نص الاستجابة، ووحدات الكلام، أو الصوت المفكوك، ومعاملات شكل الوجه (blendshape) ذات الأبعاد 52.

يولد النص والكلام ورسوم الوجه المتحركة ثلاثية الأبعاد في وقت واحد.
يُخرج معاملات شكل الوجه ذات الأبعاد 52 للعرض الواقعي للوجه الناطق.
يتضمن وحدات زمنية للتشغيل لفك تشفير الصوت وأدوات عرض أشكال الوجه.
يدعم قوالب الشبكة EmoTalk وClaire للتصور.

يوفر الإطلاق خط أنابيب استنتاج كاملًا وواجهة Gradio، مما يسمح للمستخدمين بنشر النظام محليًا للتفاعل متعدد الوسائط.