La Arquitectura de Contexto Generacional: Resolviendo la Rotación del Contexto en LLM

La Arquitectura de Contexto Generacional (GCA) propone tratar la ventana de contexto de un LLM como una vida útil finita en lugar de almacenamiento infinito para resolver la "rotación del contexto" y la dilución de la atención en sistemas multi-agente. Al imponer mortalidad artificial, los agentes se terminan antes de que su rendimiento se degrade, pasando su estado a nuevas generaciones mediante un almacén de archivos Markdown plano.

GCA aborda la degradación del contexto que ocurre mucho antes de los límites duros de tokens, como caídas significativas de rendimiento en 50K tokens dentro de una ventana de 200K.
El sistema utiliza un orquestador de backend determinista (por ejemplo, Next.js) para gestionar los ciclos de vida de los agentes, separando el razonamiento probabilístico de la gestión del estado.
Un "Agente Sombra" monitorea al Agente Principal e inyecta una instrucción de terminación cuando el contexto alcanza un umbral como el 85% de capacidad.
Los agentes compilan un resumen XML comprimido de su estado en un almacén local de Markdown antes de ser terminados.
Las nuevas generaciones leen este "cerebro externo" para continuar las tareas con una memoria de trabajo fresca y sin desorden, sin una sobrecarga computacional significativa.

Este enfoque produce una memoria operativa infinita y mantiene el razonamiento de los agentes agudo al evitar los costos computacionales y la pérdida de información asociados con la ingestión o compresión masiva del contexto.