ToolBench-X: Evaluación de agentes que usan herramientas en entornos no confiables
Los autores presentan ToolBench-X, un nuevo benchmark diseñado para evaluar agentes de modelos de lenguaje grandes bajo irrecoverabilidad recuperable del entorno de herramientas. A diferencia de los benchmarks existentes que asumen entornos limpios y estables, este framework inyecta cinco tipos estructurados de peligros: Deriva de Especificación, Error de Invocación, Fallo de Ejecución, Deriva de Salida y Conflicto entre fuentes. El conjunto de datos contiene tareas ejecutables multi-paso en diversos dominios con herramientas deterministas y respuestas finales canónicas para evaluación automática. Crucialmente, cada instancia inyectada permanece resoluble a través de rutas de recuperación válidas como reintento, fallback o verificación. Los experimentos revelan una brecha sustancial de fiabilidad donde los agentes que funcionan bien con herramientas confiables a menudo fallan bajo estos peligros. El análisis adicional indica que los fallos provienen de un diagnóstico limitado de peligros y recuperación ineficaz en lugar del volumen de uso de herramientas o el presupuesto de inferencia. Las pistas de recuperación dirigidas recuperan exitosamente muchas tareas fallidas, mientras que la escalación en tiempo de prueba ofrece ganancias más limitadas. Estos hallazgos sugieren que la evaluación debe cambiar el enfoque desde la precisión de llamadas a funciones hacia la finalización de tareas en entornos no confiables.