DriftGuard: Безопасное обнаружение с несколькими мониторами и селективная адаптация для модерации эволюционирующей токсичности

В данной статье представлен DriftGuard — фреймворк, сочетающий обнаружение дрейфа по нескольким мониторам с селективным обновлением моделей для решения проблемы эволюционирующей токсичности в системах автоматической модерации. Система отслеживает специфические сдвиги, релевантные безопасности, такие как дрейф вреда идентичности и дрейф токсичного риска, вместо того чтобы полагаться исключительно на глобальные распределительные изменения.

DriftGuard отслеживает глобальный текстовый дрейф, дрейф вреда идентичности, неопределённость модели, дрейф токсичного риска и дрейф риска ложноотрицательных результатов.
Обновления используют набор адаптации с жёстким смешиванием, приоритизирующий вероятные ложноотрицательные результаты, примеры вреда идентичности высокого риска и неопределённые граничные случаи.
На временном сдвиге Civil Comments фреймворк достиг токсичного recall на уровне 0.8777.
На кросс-датасетном сдвиге Jigsaw-to-DynaHate токсичный recall увеличился с 0.7107 до 0.8523 по сравнению с базовыми моделями.
Анализ бутстрэпа показал стабильные приросты безопасности на DynaHate, при этом распространённость ложноотрицательных результатов снизилась на 0.0781.

DriftGuard связывает обнаружение дрейфа с учётом безопасности с целевым лёгким обновлением моделей для обеспечения более устойчивой адаптивной модерации токсичности в динамичных онлайн-средах.