PolicyGuard: Un verificador de sub-agente fundamentado en el diálogo para la adherencia a políticas en agentes LLM

Los investigadores presentan PolicyGuard, un verificador de sub-agente diseñado para mejorar la adherencia a políticas en agentes LLM mediante el razonamiento sobre el contexto completo del diálogo, en lugar de depender de verificaciones externas de argumentos individuales. Este enfoque aborda las limitaciones de los métodos de salvaguarda anteriores que a menudo subestiman la necesidad de correcciones específicas de la conversación y la confirmación explícita del usuario.

PolicyGuard comparte la vista del agente del diálogo, razona sobre las políticas en contexto y proporciona retroalimentación accionable para el siguiente turno.
En tau^2-BENCH airline a través de tres proveedores (GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Pro), mejora PASS4 en +12.0 / +6.0 / +12.0 pp.
Los análisis por llamada muestran una mayor recall de violaciones de políticas mientras bloquea aproximadamente la mitad de veces que los guardias a nivel de argumento.

Este método ayuda a los usuarios al asegurar que los flujos de trabajo del mundo real, que se desarrollan a lo largo de muchos turnos, se manejen en cumplimiento con las políticas organizacionales mediante la fundamentación continua del diálogo.