HPRO: Optimización jerárquica progresiva de recompensas para TTS emocional

Los autores proponen HPRO, un marco de optimización jerárquica progresiva de recompensas diseñado para mejorar la expresividad emocional en modelos de Texto-a-Voz basados en LLM mientras se preserva la inteligibilidad lingüística. Este enfoque aborda las discrepancias estructurales en los métodos existentes basados en preferencias al aislar el contenido y la emoción, y cerrar la brecha entre las recompensas dispersas y la generación densa.

Introduce el codec HD-Emo, un modelo de recompensa diferenciable que extrae tokens de preferencia de contenido y estilo distintos para resolver conflictos de información.
Aísla estructuralmente la optimización emocional del contenido semántico para prevenir la manipulación de recompensas y la degradación semántica.
Cierra la brecha de escala alineando progresivamente los objetivos a nivel de fotograma, palabra y oración.
Los experimentos demuestran una mejora significativa en la expresividad emocional sin comprometer la inteligibilidad lingüística.

HPRO supera eficazmente las limitaciones del Ajuste Fino Supervisado estándar, que a menudo resulta en una prosodia estadísticamente promediada, proporcionando un método robusto para optimizar la síntesis de habla emocional.