O NOVA-VAD, um detector de atividade de voz leve e explicável, alcança 93% de precisão em áudio ruidoso do conjunto de dados UrbanSound8K, superando o WebRTC (58%), Pyannote (62%) e Silero (87%). Ele usa apenas scikit-learn, não requer GPU e fornece importância de recursos e pontuações de confiança em inglês simples.