DriftGuard: Detección multi-monitor consciente de la seguridad y adaptación selectiva para la moderación de toxicidad en evolución

Este artículo presenta DriftGuard, un marco que combina la detección de deriva con múltiples monitores y la actualización selectiva de modelos para abordar la toxicidad en evolución en sistemas de moderación automatizada. El sistema rastrea cambios específicos relevantes para la seguridad, como la deriva de daño a la identidad y la deriva de riesgo tóxico, en lugar de depender únicamente de cambios distribucionales globales.

DriftGuard monitorea la deriva global del texto, la deriva de daño a la identidad, la incertidumbre del modelo, la deriva de riesgo tóxico y la deriva de riesgo de falsos negativos.
Las actualizaciones utilizan un conjunto de adaptación de mezcla dura que prioriza los falsos negativos probables, ejemplos de alto riesgo de identidad y casos límite inciertos.
En el cambio temporal de Civil Comments, el marco logró una recuperación tóxica de 0.8777.
En el cambio entre conjuntos de datos Jigsaw-to-DynaHate, la recuperación tóxica aumentó de 0.7107 a 0.8523 en comparación con las líneas base.
El análisis bootstrap mostró ganancias estables en seguridad en DynaHate, con una disminución de la prevalencia de falsos negativos en 0.0781.

DriftGuard vincula la detección de deriva consciente de la seguridad con la actualización dirigida y ligera de modelos para proporcionar una moderación de toxicidad adaptativa más robusta en entornos en línea dinámicos.