Кластеризация несупервизионных представлений как защита от атак отравления в системе классификации голосовых команд

В данной статье предлагается метод фильтрационной защиты от атак отравления с испорченными метками в системах классификации голосовых команд путем кластеризации несупервизионных представлений для выявления и удаления отравленных обучающих данных.

Модель угрозы включает наложение триггера на высказывания из исходного класса и их повторную маркировку как целевого класса.
Несупервизионные представления обучаются с использованием метода DIstillation with NO labels (DINO).
Для кластеризации этих представлений применяются K-means и LDA, при этом сохраняются только высказывания с наиболее повторяющейся меткой в каждом кластере.
Предложенная защита снижает успешность атаки с 99,75% до 0,25% для 10% отравленного исходного класса.

Этот подход эффективно смягчает последствия атак отравления в различных моделях угроз и вариациях триггеров, обеспечивая надежную производительность классификации.