SAFARI: Масштабирование атрибуции сбоев агентов на длинных горизонтах через активное расследование

Статья представляет SAFARI, фреймворк, предназначенный для диагностики сбоев автономных агентов путем замены линейной загрузки контекста на диагностический цикл с расширенными инструментами. Этот подход отделяет точность диагностики от архитектурных ограничений контекста за счет использования специализированных инструментов и кратковременной памяти для анализа сегментов траектории.

SAFARI использует набор инструментов для чтения и поиска по сегментам траектории вместе с постоянной кратковременной памятью для рассуждений между ходами.
Он превосходит результаты state-of-the-art на 20% на датасете Who&When в рамках бюджета в 1M токенов.
Фреймворк достигает улучшения на 19% на подмножестве TRAIL GAIA при бюджете в 25K токенов.
SAFARI сохраняет точность (precision) 0.58 даже когда целевой сбой находится в пять раз дальше за пределами нативного контекстного окна модели.

Этот метод позволяет эффективно диагностировать сбои в задачах с длинным горизонтом, где традиционные оценщики терпят неудачу из-за ограничений контекстного окна.

Бенчмарки