TRACE: Легковесное обнаружение отравления корпуса в RAG с помощью атрибуции влияния токенов

Системы генерации с дополнением извлечения (RAG) сталкиваются со значительными рисками, связанными с атаками отравления корпуса, которые манипулируют выводами через вредоносные документы. Существующие методы обнаружения часто требуют вспомогательных классификаторов или дополнительной проверки с помощью больших языковых моделей (LLM), что создает существенные вычислительные накладные расходы. Чтобы решить эту проблему, исследователи представили TRACE — легковесную систему, которая выявляет отравление путем отслеживания токенов, связанных с ответом, через атрибуцию влияния. Система сначала обнаруживает повторяющиеся ключевые слова с высоким влиянием среди извлеченных документов, чтобы обозначить потенциальные угрозы. Затем она выполняет вторичную верификацию для подтверждения конкретного влияния этих токенов на предсказания модели. Эксперименты, проведенные на трех наборах данных для оценки качества ответов (QA) и шести больших языковых моделях, демонстрируют высокую эффективность обнаружения системы TRACE. Кроме того, TRACE успешно выявляет целевые ответы, указанные атакующим, в процессе верификации.