Para peneliti telah merilis Ex-Omni, sebuah sistem publik yang menghasilkan respons omni-modal dari input teks atau suara. Model ini menghasilkan teks respons, unit suara, atau audio yang didekode, serta koefisien blendshape wajah berdimensi 52.

  • Menghasilkan teks, suara, dan animasi wajah 3D secara bersamaan.
  • Mengeluarkan koefisien blendshape wajah berdimensi 52 untuk rendering wajah berbicara yang realistis.
  • Termasuk modul runtime untuk dekoding audio dan utilitas rendering blendshape.
  • Mendukung template mesh EmoTalk dan Claire untuk visualisasi.

Rilis ini menyediakan pipeline inferensi lengkap dan antarmuka Gradio, memungkinkan pengguna untuk mendeploy sistem secara lokal untuk interaksi multi-modal.