Ex-Omni permite geração de animação facial 3D para LLMs omnimodais

Pesquisadores lançaram o Ex-Omni, um sistema público que gera respostas omnimodais a partir de entrada de texto ou fala. O modelo produz texto de resposta, unidades de fala ou áudio decodificado, e coeficientes de blendshape facial de 52 dimensões.

Gera texto, fala e animação facial 3D simultaneamente.
Emite coeficientes de blendshape facial de 52 dimensões para renderização realista de rostos falantes.
Inclui módulos de tempo de execução para decodificação de áudio e utilitários de renderização de blendshapes.
Suporta modelos de malha EmoTalk e Claire para visualização.

O lançamento fornece um pipeline de inferência completo e uma interface Gradio, permitindo que os usuários implantem o sistema localmente para interação multimodal.