Agrupación de representaciones no supervisadas como defensa contra ataques de envenenamiento en sistemas de clasificación de comandos de voz

Este artículo propone una defensa basada en filtrado contra ataques de envenenamiento con etiquetas sucias en sistemas de clasificación de comandos de voz, agrupando representaciones no supervisadas para identificar y eliminar datos de entrenamiento envenenados.

El modelo de amenaza implica superponer un disparador en enunciados de una clase fuente y volver a etiquetarlos como una clase objetivo.
Las representaciones no supervisadas se aprenden utilizando DIstillation with NO labels (DINO).
Se utilizan K-means y LDA para agrupar estas representaciones, conservando solo los enunciados con la etiqueta más repetida en cada cluster.
La defensa reduce la tasa de éxito del ataque del 99.75% al 0.25% para una clase fuente envenenada del 10%.

Este enfoque mitiga eficazmente los ataques de envenenamiento a través de varios modelos de amenaza y variaciones del disparador, garantizando un rendimiento robusto de clasificación.