В данной статье предлагается метод фильтрационной защиты от атак отравления с испорченными метками в системах классификации голосовых команд путем кластеризации несупервизионных представлений для выявления и удаления отравленных обучающих данных.
- Модель угрозы включает наложение триггера на высказывания из исходного класса и их повторную маркировку как целевого класса.
- Несупервизионные представления обучаются с использованием метода DIstillation with NO labels (DINO).
- Для кластеризации этих представлений применяются K-means и LDA, при этом сохраняются только высказывания с наиболее повторяющейся меткой в каждом кластере.
- Предложенная защита снижает успешность атаки с 99,75% до 0,25% для 10% отравленного исходного класса.
Этот подход эффективно смягчает последствия атак отравления в различных моделях угроз и вариациях триггеров, обеспечивая надежную производительность классификации.