Pesquisadores lançaram o Ex-Omni, um sistema público que gera respostas omnimodais a partir de entrada de texto ou fala. O modelo produz texto de resposta, unidades de fala ou áudio decodificado, e coeficientes de blendshape facial de 52 dimensões.

  • Gera texto, fala e animação facial 3D simultaneamente.
  • Emite coeficientes de blendshape facial de 52 dimensões para renderização realista de rostos falantes.
  • Inclui módulos de tempo de execução para decodificação de áudio e utilitários de renderização de blendshapes.
  • Suporta modelos de malha EmoTalk e Claire para visualização.

O lançamento fornece um pipeline de inferência completo e uma interface Gradio, permitindo que os usuários implantem o sistema localmente para interação multimodal.