Устранение разрыва в качестве синтеза речи для малоресурсных языков: дообучение VoxCPM2 с помощью LoRA для кхмерского и корейского

Исследователи устраняют разрыв в качестве синтеза речи для малоресурсных языков путем дообучения модели VoxCPM2 на 2,4 млрд параметров с использованием адаптации низкого ранга (LoRA) на общем корпусе данных кхмерского и корейского языков.

В исследовании адаптируется VoxCPM2, который объединяет базовую модель MiniCPM-4 с декодером диффузии на основе flow-matching, с использованием одного адаптера LoRA, обученного на 26 часах смешанных языковых данных.
Слуховые тесты с участием носителей языка показывают, что средний балл оценки качества (MOS) для кхмерского языка увеличивается с 3,85 до 4,23 при использовании адаптера ранга 64, что представляет собой статистически значимое улучшение при обучении всего 3,03 процента параметров.
Автоматическая функция потерь валидации достигает минимума при ранге 128, тогда как человеческие оценки достигают пика при ранге 64, что указывает на расхождение между автоматическими метриками и воспринимаемым качеством.
Адаптация не приносит пользы для корейского языка, поскольку базовая модель уже хорошо справляется с ним, а адаптеры высокого ранга даже ухудшают качество в этом языке.

Полученные результаты свидетельствуют о том, что адаптация LoRA эффективна преимущественно там, где базовая модель действительно слаба, подчеркивая ее полезность для улучшения качества синтеза речи для малоресурсных языков.