Исследователи выпустили Ex-Omni, публичную систему, которая генерирует омни-модальные ответы на основе текстового или речевого ввода. Модель производит текстовый ответ, речевые единицы или декодированный аудиофайл, а также коэффициенты 52-мерных блендшейпов лица.

  • Одновременная генерация текста, речи и 3D-анимации лица.
  • Выводит 52-мерные коэффициенты блендшейпов лица для реалистичного рендеринга говорящего лица.
  • Включает модули времени выполнения для декодирования аудио и утилиты рендеринга блендшейпов.
  • Поддерживает шаблоны сетки EmoTalk и Claire для визуализации.

Выпуск предоставляет полный конвейер вывода и интерфейс Gradio, позволяя пользователям развертывать систему локально для мультимодального взаимодействия.