В данной статье предлагается метод фильтрационной защиты от атак отравления с испорченными метками в системах классификации голосовых команд путем кластеризации несупервизионных представлений для выявления и удаления отравленных обучающих данных.

  • Модель угрозы включает наложение триггера на высказывания из исходного класса и их повторную маркировку как целевого класса.
  • Несупервизионные представления обучаются с использованием метода DIstillation with NO labels (DINO).
  • Для кластеризации этих представлений применяются K-means и LDA, при этом сохраняются только высказывания с наиболее повторяющейся меткой в каждом кластере.
  • Предложенная защита снижает успешность атаки с 99,75% до 0,25% для 10% отравленного исходного класса.

Этот подход эффективно смягчает последствия атак отравления в различных моделях угроз и вариациях триггеров, обеспечивая надежную производительность классификации.