NOVA-VAD, лёгкий и интерпретируемый детектор активности речи, достигает точности 93% при шумном аудио из набора данных UrbanSound8K, превосходя WebRTC (58%), Pyannote (62%) и Silero (87%). Он использует только scikit-learn, не требует GPU и предоставляет важность признаков и оценки уверенности на простом английском языке.