Memoria Personal Latente: Prompts Suaves Dinámicos para la Personalización de LLM

La Memoria Personal Latente (LPM) representa las memorias específicas del usuario como una matriz compacta y persistente de N ranuras latentes. Estas ranuras se mapean a través de una red de atención cruzada compartida en prompts suaves dinámicos condicionados por la entrada, que se antepone a un LLM congelado. LPM supera a LoRA y Prompt Tuning hasta en un 8.8% y 54.4% en PersonaMem v1, reduce el uso de KV-cache en más de 64x, iguala la precisión de LoRA en LoCoMo con 120x menos parámetros, y escala eficientemente con la longitud del contexto, superando al contexto completo a 128K tokens.