研究人员发布了 Ex-Omni,这是一个公开系统,可根据文本或语音输入生成全模态响应。该模型生成响应文本、语音单元或解码音频,以及 52 维的面部混合形状系数。
- 同时生成文本、语音和 3D 面部动画。
- 输出 52 维面部混合形状系数,用于逼真的说话人脸渲染。
- 包含用于音频解码和混合形状渲染工具的运行时模块。
- 支持 EmoTalk 和 Claire 网格模板以进行可视化。
此次发布提供了完整的推理管道和 Gradio 界面,允许用户在本地部署该系统以实现多模态交互。
研究人员发布了 Ex-Omni,这是一个公开系统,可根据文本或语音输入生成全模态响应。该模型生成响应文本、语音单元或解码音频,以及 52 维的面部混合形状系数。
此次发布提供了完整的推理管道和 Gradio 界面,允许用户在本地部署该系统以实现多模态交互。