Исследователи выпустили Ex-Omni, публичную систему, которая генерирует омни-модальные ответы на основе текстового или речевого ввода. Модель производит текстовый ответ, речевые единицы или декодированный аудиофайл, а также коэффициенты 52-мерных блендшейпов лица.
- Одновременная генерация текста, речи и 3D-анимации лица.
- Выводит 52-мерные коэффициенты блендшейпов лица для реалистичного рендеринга говорящего лица.
- Включает модули времени выполнения для декодирования аудио и утилиты рендеринга блендшейпов.
- Поддерживает шаблоны сетки EmoTalk и Claire для визуализации.
Выпуск предоставляет полный конвейер вывода и интерфейс Gradio, позволяя пользователям развертывать систему локально для мультимодального взаимодействия.