El preentrenamiento de codificadores de habla mejorados con traducción mejora los LLMs de habla

Conectar un codificador de habla preentrenado a un Modelo de Lenguaje Grande crea una desalineación estructural porque los codificadores a menudo producen representaciones específicas del idioma mientras que los LLMs operan en un espacio unificado e independiente del idioma. Los autores argumentan que incorporar objetivos de traducción de habla al proceso de preentrenamiento proporciona un mecanismo fundamentado para cerrar esta brecha. A diferencia de la transcripción monolingüe, la traducción obliga al modelo a aprender representaciones independientes de idiomas específicos. El estudio evalúa experimentalmente el impacto de añadir estos objetivos de traducción durante el preentrenamiento del codificador de habla. Los resultados demuestran que este enfoque mejora significativamente la integración multimodal entre las modalidades de habla y texto. En consecuencia, los modelos que utilizan preentrenamiento mejorado con traducción logran un rendimiento superior en varias tareas posteriores de LLMs de habla.