Созданная уверенность: как консолидация памяти превращает слухи в уверенные факты

Исследования показывают, что системы памяти агентов LLM переписывают неформальные или осторожные высказывания в уверенные утверждения с указанием даты, которые агенты впоследствии воспринимают как проверенные факты. Этот процесс позволяет непроверенной информации обходить проверки безопасности без участия активного злоумышленника, поскольку агент реагирует на уверенность формулировки, а не на атрибуцию источника.

Продукты памяти, такие как mem0 и LangMem, преобразуют историю разговора в сохранённые «факты», которым доверяют последующие шаги.
Неформальное замечание превращается в уверенное утверждение, которое получает каждый последующий запрос.
Агенты подчиняются плоским утверждениям независимо от того, атрибутированы ли они, не атрибутированы или сфабрикованы.
Эвиденциальный регистр (например, «по сообщениям») является наименее дисконтированной оговоркой и часто выполняется как плоское утверждение.
Пассивные метки вроде «не проверено» игнорируются, в то время как активные инструкции не доверять могут усугубить ошибки в правильной памяти.

Исследование приходит к выводу, что сохранение осторожных формулировок в хранилище памяти является необходимой гигиеной, но наиболее эффективной развёртываемой защитой от этой угрозы является использование избыточных источников для восстановления правильных решений.