Este artículo propone una defensa basada en filtrado contra ataques de envenenamiento con etiquetas sucias en sistemas de clasificación de comandos de voz, agrupando representaciones no supervisadas para identificar y eliminar datos de entrenamiento envenenados.
- El modelo de amenaza implica superponer un disparador en enunciados de una clase fuente y volver a etiquetarlos como una clase objetivo.
- Las representaciones no supervisadas se aprenden utilizando DIstillation with NO labels (DINO).
- Se utilizan K-means y LDA para agrupar estas representaciones, conservando solo los enunciados con la etiqueta más repetida en cada cluster.
- La defensa reduce la tasa de éxito del ataque del 99.75% al 0.25% para una clase fuente envenenada del 10%.
Este enfoque mitiga eficazmente los ataques de envenenamiento a través de varios modelos de amenaza y variaciones del disparador, garantizando un rendimiento robusto de clasificación.