Ex-Omni, 오모니모달 LLM을 위한 3D 얼굴 애니메이션 생성 지원

연구자들이 텍스트 또는 음성 입력에서 오모니모달 응답을 생성하는 공개 시스템인 Ex-Omni를 출시했습니다. 이 모델은 응답 텍스트, 음성 단위 또는 복호화된 오디오, 그리고 52차원 얼굴 블렌드셰이프 계수를 생성합니다.

이번 릴리스는 완전한 추론 파이프라인과 Gradio 인터페이스를 제공하여 사용자가 멀티모달 상호작용을 위해 시스템을 로컬에 배포할 수 있게 합니다.