DriftGuard: Безопасное обнаружение с несколькими мониторами и селективная адаптация для модерации эволюционирующей токсичности
В данной статье представлен DriftGuard — фреймворк, сочетающий обнаружение дрейфа по нескольким мониторам с селективным обновлением моделей для решения проблемы эволюционирующей токсичности в системах автоматической модерации. Система отслеживает специфические сдвиги, релевантные безопасности, такие как дрейф вреда идентичности и дрейф токсичного риска, вместо того чтобы полагаться исключительно на глобальные распределительные изменения.