Ex-Omni memungkinkan generasi animasi wajah 3D untuk LLM omni-modal

Para peneliti telah merilis Ex-Omni, sebuah sistem publik yang menghasilkan respons omni-modal dari input teks atau suara. Model ini menghasilkan teks respons, unit suara, atau audio yang didekode, serta koefisien blendshape wajah berdimensi 52.

Menghasilkan teks, suara, dan animasi wajah 3D secara bersamaan.
Mengeluarkan koefisien blendshape wajah berdimensi 52 untuk rendering wajah berbicara yang realistis.
Termasuk modul runtime untuk dekoding audio dan utilitas rendering blendshape.
Mendukung template mesh EmoTalk dan Claire untuk visualisasi.

Rilis ini menyediakan pipeline inferensi lengkap dan antarmuka Gradio, memungkinkan pengguna untuk mendeploy sistem secara lokal untuk interaksi multi-modal.