Новая методика постобучения использует перцептуальные вознаграждения на основе нескольких метрик для оптимизации моделей улучшения речи. Она напрямую применяет не дифференцируемые метрики, такие как DNSMOS, WER и UTMOS, как вознаграждения через Group Sequence Policy Optimization, достигая лучших результатов на DNS2020. Оценка людьми подтверждает, что комбинация нескольких метрик превосходит подходы на основе одной метрики, снижая риски вознаграждения.