OLIVE: Predicción de latentes aumentados por vista con reconstrucción de forma de onda para SSL de habla

Los autores proponen OLIVE, un marco de aprendizaje de representaciones de habla auto-supervisado que optimiza conjuntamente objetivos de análisis y síntesis mediante predicción de latentes enmascarados aumentados por vista y reconstrucción de forma de onda. Este enfoque unificado restringe las características tempranas del codificador para retener información a nivel de señal, mientras moldea las representaciones contextuales posteriores hacia la invarianza para un rendimiento robusto en tareas posteriores.

Combina la predicción de latentes enmascarados aumentados por vista con la reconstrucción de forma de onda bajo un único objetivo.
Utiliza la reconstrucción para restringir las características tempranas del codificador a retener información a nivel de señal.
Moldea las representaciones contextuales posteriores hacia la invarianza mediante predicción de latentes enmascarados.
Mejora los resultados en tareas de generación y hablante, manteniendo un rendimiento competitivo en tareas de reconocimiento y semánticas.

OLIVE permite representaciones que apoyan una amplia gama de tareas, mejorando específicamente la calidad de la reconstrucción de forma de onda junto con un rendimiento mejorado en generación e identificación de hablante.