Los modelos de texto-discurso transcriben latente-mente el habla en capas intermedias

Los modelos de lenguaje-habla entrelazados pasan por una fase de transcripción implícita donde las palabras habladas se vuelven decodificables como tokens de texto en capas intermedias, a pesar de no tener entrenamiento de reconocimiento de voz. Hasta el 77% de los datos muestran la palabra hablada apareciendo como la principal candidata de predicción de texto, seguida por la continuación del texto y el retorno al habla. Este comportamiento es impulsado por los datos entrelazados y la inicialización del LM de texto, correlacionándose con el rendimiento del conocimiento hablado.