Архитектура поколенческого контекста: Решение проблемы «закисания» контекста в LLM

Архитектура поколенческого контекста (GCA) предлагает рассматривать окно контекста LLM как конечный срок жизни, а не бесконечное хранилище, чтобы решить проблему «закисания» контекста и размытия внимания в многоагентных системах. Насилие искусственной смертности приводит к тому, что агенты завершаются до деградации производительности, передавая своё состояние новым поколениям через плоский Markdown-хранилище.

GCA решает проблему деградации контекста, которая происходит задолго до достижения жёстких лимитов токенов, например, значительное падение производительности при 50K токенах в окне на 200K.
Система использует детерминированный бэкенд-оркестратор (например, Next.js) для управления жизненным циклом агентов, разделяя вероятностные рассуждения и управление состоянием.
«Теневой агент» (Shadow Agent) контролирует основного агента и вводит промпт завершения, когда контекст достигает порога, например, 85% от ёмкости.
Агенты формируют сжатую XML-сводку своего состояния и сохраняют её в локальном Markdown-хранилище перед завершением.
Новые поколения читают этот «внешний мозг», чтобы продолжать задачи со свежей, не загромождённой рабочей памятью без значительных вычислительных затрат.

Этот подход обеспечивает бесконечную оперативную память и сохраняет чёткость рассуждений агентов, избегая вычислительных издержек и потери информации, связанных с обработкой огромного контекста или его сжатием.