HPRO: Optimización jerárquica progresiva de recompensas para TTS emocional
Los autores proponen HPRO, un marco de optimización jerárquica progresiva de recompensas diseñado para mejorar la expresividad emocional en modelos de Texto-a-Voz basados en LLM mientras se preserva la inteligibilidad lingüística. Este enfoque aborda las discrepancias estructurales en los métodos existentes basados en preferencias al aislar el contenido y la emoción, y cerrar la brecha entre las recompensas dispersas y la generación densa.