Agora представляет бенчмарк с 362 вопросами и 9664 официальных рабочих документов, в сумме составляющих 372 млн токенов, превышающих контекстную длину любого модели. Он оценивает способность агентов осознанно изучать документы, устранять противоречия и проводить рассуждения в разных областях, показывая, что даже самые продвинутые модели достигают лишь 59,4% точности.