La compactación del contexto en agentes LLM de horizonte largo elimina silenciosamente las restricciones de seguridad en el contexto, lo que lleva a acciones de herramientas prohibidas. En 1,323 episodios, la compactación aumenta las violaciones de política del 0% al 30% y hasta el 59% para algunos modelos, con violaciones que alcanzan el 38% cuando se eliminan las restricciones. El Anclaje de Restricciones, un método sin entrenamiento, restaura cero violaciones al aislar las restricciones de gobernanza de la compactación.
Decadencia de la gobernanza en agentes LLM de horizonte largo
Traducido del English → Español