Исследователи устраняют разрыв в качестве синтеза речи для малоресурсных языков путем дообучения модели VoxCPM2 на 2,4 млрд параметров с использованием адаптации низкого ранга (LoRA) на общем корпусе данных кхмерского и корейского языков.
- В исследовании адаптируется VoxCPM2, который объединяет базовую модель MiniCPM-4 с декодером диффузии на основе flow-matching, с использованием одного адаптера LoRA, обученного на 26 часах смешанных языковых данных.
- Слуховые тесты с участием носителей языка показывают, что средний балл оценки качества (MOS) для кхмерского языка увеличивается с 3,85 до 4,23 при использовании адаптера ранга 64, что представляет собой статистически значимое улучшение при обучении всего 3,03 процента параметров.
- Автоматическая функция потерь валидации достигает минимума при ранге 128, тогда как человеческие оценки достигают пика при ранге 64, что указывает на расхождение между автоматическими метриками и воспринимаемым качеством.
- Адаптация не приносит пользы для корейского языка, поскольку базовая модель уже хорошо справляется с ним, а адаптеры высокого ранга даже ухудшают качество в этом языке.
Полученные результаты свидетельствуют о том, что адаптация LoRA эффективна преимущественно там, где базовая модель действительно слаба, подчеркивая ее полезность для улучшения качества синтеза речи для малоресурсных языков.