NOVA-VAD побеждает Silero, Pyannote и WebRTC при шумном аудио с точностью 93%

NOVA-VAD, лёгкий и интерпретируемый детектор активности речи, достигает точности 93% при шумном аудио из набора данных UrbanSound8K, превосходя WebRTC (58%), Pyannote (62%) и Silero (87%). Он использует только scikit-learn, не требует GPU и предоставляет важность признаков и оценки уверенности на простом английском языке.