CFAgentBench: Метрика для автономных агентов по строительству и финансам

CFAgentBench представляет воспроизводимую, саморазвертываемую среду с 1014 задачами, подлежащими машинному оцениванию, в восьми областях, основанных на реальных источниках. В ней представлены 40 задач с оракельной проверкой и исполняемыми оценщиками, которые оценивают функциональную корректность с помощью сравнения состояний и регулярных выражений, включая защиту от передачи денег, требующую одобрения человека. Ключевым результатом является то, что лучшие агенты теряют 43% успехов при повторении задач при декодировании с температурой 0, что указывает на то, что производительность при одном попытке не отражает реальную применимость в условиях эксплуатации.