연구자들이 텍스트 또는 음성 입력에서 오모니모달 응답을 생성하는 공개 시스템인 Ex-Omni를 출시했습니다. 이 모델은 응답 텍스트, 음성 단위 또는 복호화된 오디오, 그리고 52차원 얼굴 블렌드셰이프 계수를 생성합니다.

  • 텍스트, 음성, 3D 얼굴 애니메이션을 동시에 생성.
  • 현실적인 화자 얼굴 렌더링을 위해 52차원 얼굴 블렌드셰이프 계수 출력.
  • 오디오 복호화 및 블렌드셰이프 렌더링 유틸리티를 위한 런타임 모듈 포함.
  • 시각화를 위해 EmoTalk 및 Claire 메쉬 템플릿 지원.

이번 릴리스는 완전한 추론 파이프라인과 Gradio 인터페이스를 제공하여 사용자가 멀티모달 상호작용을 위해 시스템을 로컬에 배포할 수 있게 합니다.