Созданная уверенность: как консолидация памяти превращает слухи в уверенные факты
Исследования показывают, что системы памяти агентов LLM переписывают неформальные или осторожные высказывания в уверенные утверждения с указанием даты, которые агенты впоследствии воспринимают как проверенные факты. Этот процесс позволяет непроверенной информации обходить проверки безопасности без участия активного злоумышленника, поскольку агент реагирует на уверенность формулировки, а не на атрибуцию источника.