Des chercheurs ont publié Ex-Omni, un système public qui génère des réponses omni-modales à partir d'une entrée textuelle ou vocale. Le modèle produit du texte de réponse, des unités vocales ou de l'audio décodé, ainsi que des coefficients de blendshape facial en 52 dimensions.
- Génère simultanément du texte, de la parole et une animation faciale 3D.
- Produit des coefficients de blendshape facial en 52 dimensions pour un rendu réaliste du visage parlant.
- Inclut des modules d'exécution pour le décodage audio et les utilitaires de rendu de blendshape.
- Prend en charge les modèles de maillage EmoTalk et Claire pour la visualisation.
La publication fournit un pipeline d'inférence complet et une interface Gradio, permettant aux utilisateurs de déployer le système localement pour des interactions multi-modales.