SAFARI: Escalar la atribución de fallos agénticos en horizontes largos mediante investigación activa

El artículo presenta SAFARI, un marco diseñado para diagnosticar fallos en agentes autónomos reemplazando la carga lineal del contexto con un bucle de diagnóstico aumentado por herramientas. Este enfoque desacopla la precisión del diagnóstico de los límites contextuales arquitecturales utilizando herramientas especializadas y memoria a corto plazo para analizar segmentos de trayectoria.

SAFARI utiliza una caja de herramientas para leer y buscar segmentos de trayectoria junto con Memoria a Corto Plazo persistente para el razonamiento entre turnos.
Supera los resultados más avanzados en un 20% en el conjunto de datos Who&When dentro de un presupuesto de 1M de tokens.
El marco logra una mejora del 19% en el subconjunto TRAIL GAIA utilizando un presupuesto de 25K tokens.
SAFARI mantiene una precisión de 0.58 incluso cuando la falla objetivo está ubicada cinco veces más allá de la ventana de contexto nativa del modelo.

Este método permite un diagnóstico efectivo de fallos en tareas de horizonte largo donde los evaluadores tradicionales fallan debido a las restricciones de la ventana de contexto.

Benchmarks