Обнаружение, отмена обучения и восстановление: защита моделей суммаризации текста от отравления данных

Исследование рассматривает угрозу отравления данных на этапе обучения при тонкой настройке моделей абстрактной суммаризации текста. Злоумышленники манипулируют небольшими специфичными для задачи наборами данных, чтобы вызвать устойчивые ошибки суммаризации, сохраняя при этом стандартные показатели оценки. Предлагается единая пост-гочная (post-hoc) защитная рамка для обнаружения и устранения отравления во всей цепочке поставок машинного обучения. В условиях white-box обнаружение опирается на анализ функций влияния, выявляющий аномально высокое влияние обучения в отравленных парах. Защитные механизмы black-box используют поведенческий аудит, основанный на повышенной чувствительности к возмущениям, сохраняющим семантику. Авторы представляют новые атаки, направленные на искажение фактов и репрезентативное смещение, которые обходят традиционные системы оповещения. Эксперименты с девятью архитектурами и шестью бенчмарками показывают точность обнаружения 85-92% для предложенных защитных механизмов. Отмена обучения методом градиентного восхождения восстанавливает до 96% исходного поведения при снижении показателя ROUGE менее чем на 0,6%.