La evaluación offline de sistemas agénticos a menudo produce empates en el 75% de los casos utilizando métricas estándar basadas en el éxito. La evaluación de trayectorias basada en preferencias reduce los empates al 35% comparando perfiles de progreso y tiempo hasta el retorno, mejorando el poder discriminativo y la eficiencia de datos. Estos resultados sugieren que la saturación de los benchmarks puede deberse a la elección del método de evaluación, no solo a los datos o la dificultad del problema.
Evaluación de trayectorias basada en preferencias para sistemas agénticos
Traducido del English → Español