Ex-Omni permite la generación de animación facial 3D para LLMs omnimodales

Los investigadores han lanzado Ex-Omni, un sistema público que genera respuestas omnimodales a partir de entradas de texto o voz. El modelo produce texto de respuesta, unidades de habla o audio decodificado, y coeficientes de blendshape facial de 52 dimensiones.

Genera texto, habla y animación facial 3D simultáneamente.
Emite coeficientes de blendshape facial de 52 dimensiones para la renderización realista de rostros que hablan.
Incluye módulos de tiempo de ejecución para la decodificación de audio y utilidades de renderizado de blendshapes.
Soporta plantillas de malla EmoTalk y Claire para visualización.

El lanzamiento proporciona un pipeline de inferencia completo y una interfaz Gradio, permitiendo a los usuarios implementar el sistema localmente para interacción multimodal.