EComAgentBench: Evaluación de Agentes de Compra con Intención Oculta
EComAgentBench introduce un benchmark de 662 tareas reales de Amazon que dispersan los requisitos del comprador entre la consulta, el perfil y la aclaración. Los agentes deben descubrir la intención oculta, verificar candidatos con evidencia y comprometerse a un producto dentro de 100 llamadas a herramientas, con rúbricas tipadas que atribuyen fallos a fuentes específicas de requisitos. La evaluación muestra que incluso los mejores modelos logran solo 57.1% de precisión, y la satisfacción de las rúbricas disminuye cuando la intención está oculta.