Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.
arxiv
arXiv cs.AI
·
6 д назад
·
research
Эффективная и надежная вероятностная проверка для агентов ИИ
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новый бенчмарк-харнесс с отличиями
arXiv cs.AI
OpenAI
Google DeepMind
Mistral AI
AI agents
Evaluation & benchmarks
Safety & alignment
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| Terminal-Bench | our approach | — |