Cerrando la brecha de calidad en texto-a-voz de bajo recurso: Ajuste fino con LoRA de VoxCPM2 para jemer y coreano

Los investigadores abordan la brecha de calidad en texto-a-voz de bajo recurso mediante el ajuste fino del modelo VoxCPM2 de 2.4B parámetros utilizando Adaptación de Bajo Rango (LoRA) en un corpus compartido de jemer y coreano.

El estudio adapta VoxCPM2, que combina una columna vertebral MiniCPM-4 con un decodificador de difusión por emparejamiento de flujos, utilizando un único adaptador LoRA entrenado con 26 horas de datos mixtos de idiomas.
Las pruebas de escucha con hablantes nativos muestran que el Puntaje de Opinión Media (MOS) del jemer aumenta de 3.85 a 4.23 con un adaptador de rango 64, lo que representa una ganancia altamente significativa mientras se entrena solo hasta el 3.03 por ciento de los parámetros.
La pérdida de validación automática es más baja en el rango 128, mientras que las calificaciones humanas alcanzan su punto máximo en el rango 64, lo que indica un desacuerdo entre las métricas automatizadas y la calidad percibida.
La adaptación no aporta beneficios para el coreano, ya que el modelo base ya lo maneja bien, y los adaptadores de alto rango incluso degradan la calidad en ese idioma.

Los hallazgos sugieren que la adaptación LoRA es efectiva principalmente donde el modelo base es genuinamente débil, destacando su utilidad para mejorar el rendimiento del texto-a-voz en recursos bajos.