Авторы предлагают HPRO — иерархическую прогрессируемую схему оптимизации вознаграждения, предназначенную для повышения эмоциональной выразительности в моделях преобразования текста в речь на основе LLM при сохранении лингвистической понятности. Этот подход устраняет структурные несоответствия существующих методов, основанных на предпочтениях, путем изоляции содержания и эмоций, а также преодоления разрыва между разреженными вознаграждениями и плотной генерацией.
- Вводится дифференцируемая модель вознаграждения HD-Emo, извлекающая отдельные токены предпочтений по содержанию и стилю для разрешения конфликта информации.
- Структурно изолирует эмоциональную оптимизацию от семантического содержания, чтобы предотвратить «хакинг» вознаграждения и деградацию семантики.
- Преодолевает разрыв масштабов путем прогрессивного согласования целей на уровне кадров, слов и предложений.
- Эксперименты демонстрируют значительное улучшение эмоциональной выразительности без ущерба для лингвистической понятности.
HPRO эффективно преодолевает ограничения стандартного обученного с учителем дообучения (SFT), которое часто приводит к статистически усредненной просодии, предоставляя надежный метод оптимизации синтеза эмоциональной речи.