研究者らは、テキストまたは音声入力からオムニモーダルな応答を生成する公開システム「Ex-Omni」をリリースしました。このモデルは、応答テキスト、音声単位、または復号された音声、および52次元の顔ブレンドシェイプ係数を生成します。

  • テキスト、音声、3D顔アニメーションを同時に生成。
  • リアルな話者顔レンダリングのために52次元の顔ブレンドシェイプ係数を出力。
  • 音声復号およびブレンドシェイプレンダリングユーティリティ用のランタイムモジュールを含む。
  • 可視化のためにEmoTalkおよびClaireメッシュテンプレートをサポート。

今回のリリースでは、完全な推論パイプラインとGradioインターフェースが提供され、ユーザーはマルチモーダル対話のためにシステムをローカルにデプロイできます。