Los investigadores han lanzado Ex-Omni, un sistema público que genera respuestas omnimodales a partir de entradas de texto o voz. El modelo produce texto de respuesta, unidades de habla o audio decodificado, y coeficientes de blendshape facial de 52 dimensiones.
- Genera texto, habla y animación facial 3D simultáneamente.
- Emite coeficientes de blendshape facial de 52 dimensiones para la renderización realista de rostros que hablan.
- Incluye módulos de tiempo de ejecución para la decodificación de audio y utilidades de renderizado de blendshapes.
- Soporta plantillas de malla EmoTalk y Claire para visualización.
El lanzamiento proporciona un pipeline de inferencia completo y una interfaz Gradio, permitiendo a los usuarios implementar el sistema localmente para interacción multimodal.