arxiv arXiv cs.AI · hace 2 h · fuente: hace 10 d · research

Verificación probabilística eficiente y válida para agentes de IA

Traducido del English → Español

Un nuevo marco permite la aplicación segura y probabilística de políticas para agentes de IA en entornos ambiguos. Utiliza optimización robusta distribucional para calcular límites superiores rigurosos sobre las probabilidades de violación de políticas sin asumir independencia de predicados. El método supera a los enfoques anteriores en benchmarks de agentes con terminales y llamadas a herramientas, mejorando el equilibrio entre seguridad y utilidad.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nuevo entorno de evaluación con diferenciadores arXiv cs.AI OpenAI Google DeepMind Mistral AI AI agents Evaluation & benchmarks Safety & alignment

Benchmarks

Benchmark	Modelo	Puntuación
Terminal-Bench	our approach	—

Leer original