代际上下文架构(GCA)提出将大语言模型的上下文窗口视为有限的生命周期,而非无限存储,以解决多智能体系统中的“上下文腐烂”和注意力稀释问题。通过强制实施人工寿命限制,在性能下降之前终止智能体,并通过扁平文件 Markdown 保险库将其状态传递给新一代。
- GCA 解决了在达到硬性令牌限制之前就发生的上下文退化问题,例如在 200K 窗口的 50K 令牌处出现显著的性能下降。
- 该系统使用确定性后端编排器(例如 Next.js)来管理智能体生命周期,将概率推理与状态管理分离。
- “影子智能体”监控主智能体,并在上下文达到阈值(如 85% 容量)时注入终止提示。
- 智能体在被终止前,将其状态的压缩 XML 摘要编译到本地 Markdown 保险库中。
- 新一代读取这个“外部大脑”,以全新的、无杂乱的工作内存继续任务,而无需沉重的计算开销。
这种方法通过避免大规模上下文摄入或压缩相关的计算成本和信息丢失,实现了无限的操作记忆,并保持智能体推理的敏锐性。