Moshi-Face es el primer modelo de diálogo hablado dúplex completo que procesa conjuntamente entradas de audio y faciales, generando tanto habla como movimiento facial sincronizado. Utiliza un codec facial VQ-VAE para codificar y reconstruir mallas de cabeza 3D a partir de videos faciales en tokens faciales discretos, y un módulo Face Transformer para generar estos tokens de forma no autoregresiva con el fin de lograr una salida audiovisual en tiempo real. Los experimentos muestran que Moshi-Face logra una alineación audiovisual con baja latencia mientras mantiene la calidad original del diálogo.