Los investigadores han lanzado Ex-Omni, un sistema público que genera respuestas omnimodales a partir de entradas de texto o voz. El modelo produce texto de respuesta, unidades de habla o audio decodificado, y coeficientes de blendshape facial de 52 dimensiones.

  • Genera texto, habla y animación facial 3D simultáneamente.
  • Emite coeficientes de blendshape facial de 52 dimensiones para la renderización realista de rostros que hablan.
  • Incluye módulos de tiempo de ejecución para la decodificación de audio y utilidades de renderizado de blendshapes.
  • Soporta plantillas de malla EmoTalk y Claire para visualización.

El lanzamiento proporciona un pipeline de inferencia completo y una interfaz Gradio, permitiendo a los usuarios implementar el sistema localmente para interacción multimodal.