Los autores proponen OLIVE, un marco de aprendizaje de representaciones de habla auto-supervisado que optimiza conjuntamente objetivos de análisis y síntesis mediante predicción de latentes enmascarados aumentados por vista y reconstrucción de forma de onda. Este enfoque unificado restringe las características tempranas del codificador para retener información a nivel de señal, mientras moldea las representaciones contextuales posteriores hacia la invarianza para un rendimiento robusto en tareas posteriores.
- Combina la predicción de latentes enmascarados aumentados por vista con la reconstrucción de forma de onda bajo un único objetivo.
- Utiliza la reconstrucción para restringir las características tempranas del codificador a retener información a nivel de señal.
- Moldea las representaciones contextuales posteriores hacia la invarianza mediante predicción de latentes enmascarados.
- Mejora los resultados en tareas de generación y hablante, manteniendo un rendimiento competitivo en tareas de reconocimiento y semánticas.
OLIVE permite representaciones que apoyan una amplia gama de tareas, mejorando específicamente la calidad de la reconstrucción de forma de onda junto con un rendimiento mejorado en generación e identificación de hablante.