Ex-Omni позволяет генерировать 3D-анимацию лица для омни-модальных LLM

Исследователи выпустили Ex-Omni, публичную систему, которая генерирует омни-модальные ответы на основе текстового или речевого ввода. Модель производит текстовый ответ, речевые единицы или декодированный аудиофайл, а также коэффициенты 52-мерных блендшейпов лица.

Одновременная генерация текста, речи и 3D-анимации лица.
Выводит 52-мерные коэффициенты блендшейпов лица для реалистичного рендеринга говорящего лица.
Включает модули времени выполнения для декодирования аудио и утилиты рендеринга блендшейпов.
Поддерживает шаблоны сетки EmoTalk и Claire для визуализации.

Выпуск предоставляет полный конвейер вывода и интерфейс Gradio, позволяя пользователям развертывать систему локально для мультимодального взаимодействия.