Статья представляет SAFARI, фреймворк, предназначенный для диагностики сбоев автономных агентов путем замены линейной загрузки контекста на диагностический цикл с расширенными инструментами. Этот подход отделяет точность диагностики от архитектурных ограничений контекста за счет использования специализированных инструментов и кратковременной памяти для анализа сегментов траектории.
- SAFARI использует набор инструментов для чтения и поиска по сегментам траектории вместе с постоянной кратковременной памятью для рассуждений между ходами.
- Он превосходит результаты state-of-the-art на 20% на датасете Who&When в рамках бюджета в 1M токенов.
- Фреймворк достигает улучшения на 19% на подмножестве TRAIL GAIA при бюджете в 25K токенов.
- SAFARI сохраняет точность (precision) 0.58 даже когда целевой сбой находится в пять раз дальше за пределами нативного контекстного окна модели.
Этот метод позволяет эффективно диагностировать сбои в задачах с длинным горизонтом, где традиционные оценщики терпят неудачу из-за ограничений контекстного окна.