Бенчмарк · math

PutnamBench

2 результатов 2 моделей

RobustCoTAgent our framework

Хронология

2026-06-17 RobustCoTAgent 0.0% Автоматизированная оптимизация промптов для агентов на основе ЛЛМ
2026-06-17 our framework 72.5% Автоматизированная оптимизация промптов для агентов на основе ЛЛМ