Исследователи устраняют разрыв в качестве синтеза речи для малоресурсных языков путем дообучения модели VoxCPM2 на 2,4 млрд параметров с использованием адаптации низкого ранга (LoRA) на общем корпусе данных кхмерского и корейского языков.

  • В исследовании адаптируется VoxCPM2, который объединяет базовую модель MiniCPM-4 с декодером диффузии на основе flow-matching, с использованием одного адаптера LoRA, обученного на 26 часах смешанных языковых данных.
  • Слуховые тесты с участием носителей языка показывают, что средний балл оценки качества (MOS) для кхмерского языка увеличивается с 3,85 до 4,23 при использовании адаптера ранга 64, что представляет собой статистически значимое улучшение при обучении всего 3,03 процента параметров.
  • Автоматическая функция потерь валидации достигает минимума при ранге 128, тогда как человеческие оценки достигают пика при ранге 64, что указывает на расхождение между автоматическими метриками и воспринимаемым качеством.
  • Адаптация не приносит пользы для корейского языка, поскольку базовая модель уже хорошо справляется с ним, а адаптеры высокого ранга даже ухудшают качество в этом языке.

Полученные результаты свидетельствуют о том, что адаптация LoRA эффективна преимущественно там, где базовая модель действительно слаба, подчеркивая ее полезность для улучшения качества синтеза речи для малоресурсных языков.