Деградация управления в агентах на длинных горизонтах LLM

Сжатие контекста в агентах на длинных горизонтах LLM незаметно удаляет в-контекстные ограничения безопасности, что приводит к запрещённым действиям инструментов. В течение 1323 эпизодов сжатие увеличивает нарушения политики от 0% до 30% и до 59% для некоторых моделей, при этом нарушения достигают 38%, когда ограничения отключаются. Метод фиксации ограничений (Constraint Pinning), не требующий обучения, восстанавливает нулевые нарушения, изолируя ограничения управления от сжатия.