Para peneliti telah merilis Ex-Omni, sebuah sistem publik yang menghasilkan respons omni-modal dari input teks atau suara. Model ini menghasilkan teks respons, unit suara, atau audio yang didekode, serta koefisien blendshape wajah berdimensi 52.
- Menghasilkan teks, suara, dan animasi wajah 3D secara bersamaan.
- Mengeluarkan koefisien blendshape wajah berdimensi 52 untuk rendering wajah berbicara yang realistis.
- Termasuk modul runtime untuk dekoding audio dan utilitas rendering blendshape.
- Mendukung template mesh EmoTalk dan Claire untuk visualisasi.
Rilis ini menyediakan pipeline inferensi lengkap dan antarmuka Gradio, memungkinkan pengguna untuk mendeploy sistem secara lokal untuk interaksi multi-modal.