Исследования показывают, что системы памяти агентов LLM переписывают неформальные или осторожные высказывания в уверенные утверждения с указанием даты, которые агенты впоследствии воспринимают как проверенные факты. Этот процесс позволяет непроверенной информации обходить проверки безопасности без участия активного злоумышленника, поскольку агент реагирует на уверенность формулировки, а не на атрибуцию источника.
- Продукты памяти, такие как mem0 и LangMem, преобразуют историю разговора в сохранённые «факты», которым доверяют последующие шаги.
- Неформальное замечание превращается в уверенное утверждение, которое получает каждый последующий запрос.
- Агенты подчиняются плоским утверждениям независимо от того, атрибутированы ли они, не атрибутированы или сфабрикованы.
- Эвиденциальный регистр (например, «по сообщениям») является наименее дисконтированной оговоркой и часто выполняется как плоское утверждение.
- Пассивные метки вроде «не проверено» игнорируются, в то время как активные инструкции не доверять могут усугубить ошибки в правильной памяти.
Исследование приходит к выводу, что сохранение осторожных формулировок в хранилище памяти является необходимой гигиеной, но наиболее эффективной развёртываемой защитой от этой угрозы является использование избыточных источников для восстановления правильных решений.