lab Tencent Hunyuan (HF) · 2 小时前 · releases

Ex-Omni 实现全模态大模型的 3D 面部动画生成

译自 English → 中文

研究人员发布了 Ex-Omni，这是一个公开系统，可根据文本或语音输入生成全模态响应。该模型生成响应文本、语音单元或解码音频，以及 52 维的面部混合形状系数。

同时生成文本、语音和 3D 面部动画。
输出 52 维面部混合形状系数，用于逼真的说话人脸渲染。
包含用于音频解码和混合形状渲染工具的运行时模块。
支持 EmoTalk 和 Claire 网格模板以进行可视化。

此次发布提供了完整的推理管道和 Gradio 界面，允许用户在本地部署该系统以实现多模态交互。

重要性 1/3 可信度 1/3 Tencent Hunyuan (HF) Zhipu AI Multimodal Open weights