Авторы предлагают HPRO — иерархическую прогрессируемую схему оптимизации вознаграждения, предназначенную для повышения эмоциональной выразительности в моделях преобразования текста в речь на основе LLM при сохранении лингвистической понятности. Этот подход устраняет структурные несоответствия существующих методов, основанных на предпочтениях, путем изоляции содержания и эмоций, а также преодоления разрыва между разреженными вознаграждениями и плотной генерацией.

  • Вводится дифференцируемая модель вознаграждения HD-Emo, извлекающая отдельные токены предпочтений по содержанию и стилю для разрешения конфликта информации.
  • Структурно изолирует эмоциональную оптимизацию от семантического содержания, чтобы предотвратить «хакинг» вознаграждения и деградацию семантики.
  • Преодолевает разрыв масштабов путем прогрессивного согласования целей на уровне кадров, слов и предложений.
  • Эксперименты демонстрируют значительное улучшение эмоциональной выразительности без ущерба для лингвистической понятности.

HPRO эффективно преодолевает ограничения стандартного обученного с учителем дообучения (SFT), которое часто приводит к статистически усредненной просодии, предоставляя надежный метод оптимизации синтеза эмоциональной речи.