DriftGuard: Detección multi-monitor consciente de la seguridad y adaptación selectiva para la moderación de toxicidad en evolución
Este artículo presenta DriftGuard, un marco que combina la detección de deriva con múltiples monitores y la actualización selectiva de modelos para abordar la toxicidad en evolución en sistemas de moderación automatizada. El sistema rastrea cambios específicos relevantes para la seguridad, como la deriva de daño a la identidad y la deriva de riesgo tóxico, en lugar de depender únicamente de cambios distribucionales globales.