Улучшение идентификации речевых сигналов для невербальных звуков

Новый подход объединяет зафиксированные признаки Data2Vec с ECAPA-TDNN и модулем смеси экспертов для повышения идентификации речевых сигналов для невербальных звуков. Он использует условную дистилляцию и потери контрастности для поддержания точности речи, одновременно снижая EER для речевых и невербальных звуков с 38,93% до 22,66% и улучшая EER для речи с 13,17% до -9,24%.