O NOVA-VAD, um detector de atividade de voz leve e explicável, alcança 93% de precisão em áudio ruidoso do conjunto de dados UrbanSound8K, superando o WebRTC (58%), Pyannote (62%) e Silero (87%). Ele usa apenas scikit-learn, não requer GPU e fornece importância de recursos e pontuações de confiança em inglês simples.
NOVA-VAD supera Silero, Pyannote e WebRTC em áudio ruidoso com 93% de precisão
Traduzido do English → Português (BR)