Los modelos de texto-voz transcriben latentemente el habla en capas intermedias

Los modelos de lenguaje-habla entrelazados pasan por una fase de transcripción implícita donde las palabras habladas se vuelven decodificables como tokens de texto en capas intermedias, a pesar de no tener entrenamiento de reconocimiento de voz. Hasta el 77% de los datos muestran la palabra hablada apareciendo como la principal candidata de predicción de texto, seguida de una transición hacia la predicción de la siguiente palabra basada en texto antes de volver al habla. Este comportamiento está influenciado por el entrenamiento entrelazado y la inicialización del LM de texto, y se correlaciona con el rendimiento del conocimiento hablado.