NOVA-VAD, un detector de actividad de voz ligero y explicable, alcanza una precisión del 93% en audio ruidoso del conjunto de datos UrbanSound8K, superando a WebRTC (58%), Pyannote (62%) y Silero (87%). Utiliza únicamente scikit-learn, no requiere GPU y proporciona importancia de características y puntuaciones de confianza en inglés sencillo.