Evaluación de trayectorias basada en preferencias para sistemas agénticos

La evaluación offline de sistemas agénticos a menudo produce empates en el 75% de los casos utilizando métricas estándar basadas en el éxito. La evaluación de trayectorias basada en preferencias reduce los empates al 35% comparando perfiles de progreso y tiempo hasta el retorno, mejorando el poder discriminativo y la eficiencia de datos. Estos resultados sugieren que la saturación de los benchmarks puede deberse a la elección del método de evaluación, no solo a los datos o la dificultad del problema.

Benchmark	Modelo	Puntuación
SWE-bench	offline preference-based trajectory evaluation	75%
SWE-bench Verified	offline preference-based trajectory evaluation	35%

Benchmarks