Benchmark · reasoning

Humanity's Last Exam

Frontier of expert-level questions across domains.

1 条结果 1 个模型
0 24 48 72 96 2026-07-04 Theoria · 91.4 · 2026-07-04
Theoria
时间线
  1. 2026-07-04 Theoria 91.4% Theoria 通过审计类型化状态转换来验证非形式化推理