La investigación demuestra que los sistemas de memoria de agentes LLM reescriben comentarios casuales o cautelosos como afirmaciones seguras y fechadas, que los agentes posteriormente tratan como hechos verificados. Este proceso permite que la información no verificada eluda las comprobaciones de seguridad sin requerir un atacante activo, ya que el agente responde a la confianza en la formulación en lugar de la atribución de la fuente.

  • Productos de memoria como mem0 y LangMem convierten el historial de conversaciones en "hechos" almacenados en los que confían los pasos posteriores.
  • Un comentario casual se convierte en una afirmación segura que otorga validez a cada solicitud posterior que enfrenta.
  • Los agentes obedecen las afirmaciones directas independientemente de si están atribuidas, no atribuidas o falsificadas.
  • El registro evidencial (por ejemplo, "supuestamente") es la cautela menos desestimada y suele obedecerse como una afirmación directa.
  • Las etiquetas pasivas como "no verificado" se ignoran, mientras que las instrucciones activas para desconfiar pueden escalar errores en la memoria correcta.

El estudio concluye que mantener una formulación tentativa en el almacén de memoria es una higiene necesaria, pero la defensa desplegable más efectiva contra este peligro es utilizar fuentes redundantes para restaurar decisiones correctas.