Бенчмарк · math

PutnamBench

2 результатов 2 моделей
0 19.5 39 58.5 78 2026-06-17 RobustCoTAgent · 0 · 2026-06-17 our framework · 72.5 · 2026-06-17
RobustCoTAgent our framework
Хронология
  1. 2026-06-17 RobustCoTAgent 0.0% Автоматизированная оптимизация промптов для агентов на основе ЛЛМ
  2. 2026-06-17 our framework 72.5% Автоматизированная оптимизация промптов для агентов на основе ЛЛМ