L'architecture de contexte générationnel : résoudre la pourriture du contexte des LLM

L'architecture de contexte générationnel (GCA) propose de traiter la fenêtre de contexte d'un LLM comme une durée de vie finie plutôt que comme un stockage infini afin de résoudre la « pourriture du contexte » et la dilution de l'attention dans les systèmes multi-agents. En imposant une mortalité artificielle, les agents sont terminés avant que leurs performances ne se dégradent, transmettant leur état aux nouvelles générations via un coffre-fort Markdown en fichier plat.

La GCA traite la dégradation du contexte qui survient bien avant les limites de tokens dures, comme des baisses significatives de performance à 50K tokens dans une fenêtre de 200K.
Le système utilise un orchestrateur backend déterministe (par ex., Next.js) pour gérer les cycles de vie des agents, séparant le raisonnement probabiliste de la gestion de l'état.
Un « Agent Ombre » surveille l'Agent Principal et injecte une invite de terminaison lorsque le contexte atteint un seuil tel que 85 % de la capacité.
Les agents compilent un résumé XML compressé de leur état dans un coffre-fort Markdown local avant d'être terminés.
Les nouvelles générations lisent ce « cerveau externe » pour poursuivre les tâches avec une mémoire de travail fraîche et non encombrée, sans surcharge de calcul importante.

Cette approche offre une mémoire opérationnelle infinie et maintient le raisonnement des agents affûté en évitant les coûts computationnels et la perte d'informations associés à l'ingestion massive de contexte ou à sa compression.