Este artículo propone una defensa basada en filtrado contra ataques de envenenamiento con etiquetas sucias en sistemas de clasificación de comandos de voz, agrupando representaciones no supervisadas para identificar y eliminar datos de entrenamiento envenenados.

  • El modelo de amenaza implica superponer un disparador en enunciados de una clase fuente y volver a etiquetarlos como una clase objetivo.
  • Las representaciones no supervisadas se aprenden utilizando DIstillation with NO labels (DINO).
  • Se utilizan K-means y LDA para agrupar estas representaciones, conservando solo los enunciados con la etiqueta más repetida en cada cluster.
  • La defensa reduce la tasa de éxito del ataque del 99.75% al 0.25% para una clase fuente envenenada del 10%.

Este enfoque mitiga eficazmente los ataques de envenenamiento a través de varios modelos de amenaza y variaciones del disparador, garantizando un rendimiento robusto de clasificación.