Agora presenta un benchmark con 362 preguntas y 9,664 documentos auténticos de entornos laborales que suman 372M tokens, superando la ventana de contexto de cualquier modelo. Evalúa la capacidad de los agentes para explorar documentos deliberadamente, reconciliar inconsistencias y razonar entre dominios, revelando que incluso los mejores modelos alcanzan solo un 59.4% de precisión.
AGORA: Benchmark para el razonamiento de documentos en entornos laborales basados en agentes
Traducido del English → Español