研究者らは、テキストまたは音声入力からオムニモーダルな応答を生成する公開システム「Ex-Omni」をリリースしました。このモデルは、応答テキスト、音声単位、または復号された音声、および52次元の顔ブレンドシェイプ係数を生成します。
- テキスト、音声、3D顔アニメーションを同時に生成。
- リアルな話者顔レンダリングのために52次元の顔ブレンドシェイプ係数を出力。
- 音声復号およびブレンドシェイプレンダリングユーティリティ用のランタイムモジュールを含む。
- 可視化のためにEmoTalkおよびClaireメッシュテンプレートをサポート。
今回のリリースでは、完全な推論パイプラインとGradioインターフェースが提供され、ユーザーはマルチモーダル対話のためにシステムをローカルにデプロイできます。