Los autores proponen HPRO, un marco de optimización jerárquica progresiva de recompensas diseñado para mejorar la expresividad emocional en modelos de Texto-a-Voz basados en LLM mientras se preserva la inteligibilidad lingüística. Este enfoque aborda las discrepancias estructurales en los métodos existentes basados en preferencias al aislar el contenido y la emoción, y cerrar la brecha entre las recompensas dispersas y la generación densa.
- Introduce el codec HD-Emo, un modelo de recompensa diferenciable que extrae tokens de preferencia de contenido y estilo distintos para resolver conflictos de información.
- Aísla estructuralmente la optimización emocional del contenido semántico para prevenir la manipulación de recompensas y la degradación semántica.
- Cierra la brecha de escala alineando progresivamente los objetivos a nivel de fotograma, palabra y oración.
- Los experimentos demuestran una mejora significativa en la expresividad emocional sin comprometer la inteligibilidad lingüística.
HPRO supera eficazmente las limitaciones del Ajuste Fino Supervisado estándar, que a menudo resulta en una prosodia estadísticamente promediada, proporcionando un método robusto para optimizar la síntesis de habla emocional.