शोधकर्ताओं ने Ex-Omni जारी किया है, एक सार्वजनिक प्रणाली जो पाठ या वक्त्व इनपुट से omni-modal प्रतिक्रियाएँ उत्पन्न करती है। मॉडल प्रतिक्रिया पाठ, वक्त्व इकाइयाँ या डिकोडेड ऑडियो, और 52-आयामी चेहरे के blendshape गुणांक उत्पन्न करता है।

  • एक साथ पाठ, वक्त्व और 3D चेहरे की एनिमेशन जनरेट करता है।
  • वास्तविक बोलते हुए चेहरे के रेंडरिंग के लिए 52-आयामी चेहरे के blendshape गुणांक आउटपुट करता है।
  • ऑडियो डिकोडिंग और blendshape रेंडरिंग उपयोगिताओं के लिए runtime मॉड्यूल शामिल हैं।
  • विज़ुअलाइज़ेशन के लिए EmoTalk और Claire mesh टेम्पलेट का समर्थन करता है।

रिलीज़ में पूर्ण inference पाइपलाइन और Gradio इंटरफ़ेस प्रदान किया गया है, जिससे उपयोगकर्ता मल्टी-मोडल इंटरैक्शन के लिए स्थानीय रूप से प्रणाली को तैनात कर सकते हैं।