Ex-OmniがオムニモーダルLLM向けの3D顔アニメーション生成を可能に

研究者らは、テキストまたは音声入力からオムニモーダルな応答を生成する公開システム「Ex-Omni」をリリースしました。このモデルは、応答テキスト、音声単位、または復号された音声、および52次元の顔ブレンドシェイプ係数を生成します。

今回のリリースでは、完全な推論パイプラインとGradioインターフェースが提供され、ユーザーはマルチモーダル対話のためにシステムをローカルにデプロイできます。