Moshi-Face: полудуплексная речевая диалоговая модель с генерацией лиц
Moshi-Face — первая полудуплексная речевая диалоговая модель, которая одновременно обрабатывает аудио и видео лица, генерируя как речь, так и синхронизированные движения лица. Модель использует кодек лица на основе VQ-VAE для кодирования и реконструкции 3D-сеток голов из видео лиц в дискретные токены лиц, и модуль Face Transformer для генерации этих токенов без автобака для получения аудиовизуального вывода в реальном времени. Проведённые эксперименты показывают, что Moshi-Face обеспечивает аудиовизуальную синхронизацию с низкой задержкой, сохраняя при этом исходное качество диалога.