PolicyGuard: Верификатор подагента на основе диалога для соблюдения политик в агентах LLM

Исследователи представляют PolicyGuard, верификатор подагента, предназначенный для улучшения соблюдения политик в агентах LLM за счет рассуждений над полным контекстом диалога, а не полагаясь на внешние проверки отдельных аргументов. Этот подход устраняет ограничения предыдущих методов защиты, которые часто недооценивают необходимость исправлений, специфичных для разговора, и явного подтверждения пользователем.

PolicyGuard разделяет с агентом представление о диалоге, рассуждает над политиками в контексте и предоставляет действенную обратную связь для следующего хода.
На tau^2-BENCH airline для трех вендоров (GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Pro) он улучшает PASS4 на +12.0 / +6.0 / +12.0 п.п.
Анализ по вызовам показывает более высокий recall нарушений политик при блокировании примерно в два раза реже, чем стражи уровня аргументов.

Этот метод помогает пользователям, обеспечивая соблюдение организационных политик в реальных рабочих процессах, которые разворачиваются на протяжении многих ходов, благодаря непрерывному закреплению в диалоге.