Theoria 通过审计类型化状态转换来验证非形式化推理

Theoria 是一种验证架构，旨在通过使 AI 答案可审计，弥合形式化证明助手与标量 LLM 裁判之间的差距。它将候选解决方案重写为一系列类型化状态转换，每一步都由明确的理由（如引用或计算）授权。

该方法允许用户通过结构化分析而非不透明的分数来验证正确性，为整体 LLM 裁判提供了一种补充方法。

Benchmarks

Benchmark	模型	得分
GPQA Diamond	Theoria	97.1%
Humanity's Last Exam	Theoria	91.4%

Benchmark

模型

得分

GPQA Diamond

Theoria

97.1%

Humanity's Last Exam

Theoria

91.4%