EComAgentBench представляет бенчмарк из 662 реальных задач Amazon, распределяющих требования покупателя по запросу, профилю и уточнению. Агенты должны выявить скрытую цель, проверить кандидатов с помощью доказательств и принять решение о продукте в течение 100 вызовов инструментов, при этом типовые критерии отражают неудачи по конкретным источникам требований. Оценка показывает, что даже самые лучшие модели достигают лишь 57,1% точности, и удовлетворенность критериями падает, когда цель скрыта.