Mejora de habla post-entrenamiento con recompensas perceptuales
Un nuevo método post-entrenamiento utiliza recompensas perceptuales multi-métrica para optimizar modelos de mejora de habla. Aplica directamente métricas no diferenciables como DNSMOS, WER y UTMOS como recompensas mediante Group Sequence Policy Optimization, logrando resultados de última generación en DNS2020. La evaluación humana confirma que combinar múltiples métricas supera a los enfoques de métrica única, reduciendo el reward hacking.