TRACE: Detección ligera de envenenamiento de corpus en RAG mediante atribución de influencia de tokens

Los sistemas de Generación Aumentada por Recuperación enfrentan riesgos significativos debido a ataques de envenenamiento del corpus que manipulan las salidas a través de documentos maliciosos. Los métodos de detección existentes a menudo requieren clasificadores auxiliares o verificación adicional de LLM, lo que introduce una sobrecarga computacional sustancial. Para abordar esto, los investigadores introdujeron TRACE, un marco ligero que identifica el envenenamiento rastreando tokens relacionados con la respuesta mediante atribución de influencia. El sistema primero descubre palabras clave recurrentes de alta influencia a través de los documentos recuperados para señalar amenazas potenciales. Luego realiza una verificación secundaria para confirmar la influencia específica de estos tokens en las predicciones del modelo. Los experimentos realizados en tres benchmarks de QA y seis LLM demuestran un fuerte rendimiento de detección del marco. Además, TRACE descubre con éxito las respuestas objetivo especificadas por el atacante durante el proceso de verificación.