Ex-Omni omni-modal LLMs के लिए 3D चेहरे की एनिमेशन जनरेशन सक्षम बनाता है

शोधकर्ताओं ने Ex-Omni जारी किया है, एक सार्वजनिक प्रणाली जो पाठ या वक्त्व इनपुट से omni-modal प्रतिक्रियाएँ उत्पन्न करती है। मॉडल प्रतिक्रिया पाठ, वक्त्व इकाइयाँ या डिकोडेड ऑडियो, और 52-आयामी चेहरे के blendshape गुणांक उत्पन्न करता है।

एक साथ पाठ, वक्त्व और 3D चेहरे की एनिमेशन जनरेट करता है।
वास्तविक बोलते हुए चेहरे के रेंडरिंग के लिए 52-आयामी चेहरे के blendshape गुणांक आउटपुट करता है।
ऑडियो डिकोडिंग और blendshape रेंडरिंग उपयोगिताओं के लिए runtime मॉड्यूल शामिल हैं।
विज़ुअलाइज़ेशन के लिए EmoTalk और Claire mesh टेम्पलेट का समर्थन करता है।

रिलीज़ में पूर्ण inference पाइपलाइन और Gradio इंटरफ़ेस प्रदान किया गया है, जिससे उपयोगकर्ता मल्टी-मोडल इंटरैक्शन के लिए स्थानीय रूप से प्रणाली को तैनात कर सकते हैं।