Pesquisadores lançaram o Ex-Omni, um sistema público que gera respostas omnimodais a partir de entrada de texto ou fala. O modelo produz texto de resposta, unidades de fala ou áudio decodificado, e coeficientes de blendshape facial de 52 dimensões.
- Gera texto, fala e animação facial 3D simultaneamente.
- Emite coeficientes de blendshape facial de 52 dimensões para renderização realista de rostos falantes.
- Inclui módulos de tempo de execução para decodificação de áudio e utilitários de renderização de blendshapes.
- Suporta modelos de malha EmoTalk e Claire para visualização.
O lançamento fornece um pipeline de inferência completo e uma interface Gradio, permitindo que os usuários implantem o sistema localmente para interação multimodal.