Theoria 是一种验证架构,旨在通过使 AI 答案可审计,弥合形式化证明助手与标量 LLM 裁判之间的差距。它将候选解决方案重写为一系列类型化状态转换,每一步都由明确的理由(如引用或计算)授权。

  • 该系统确保变更的完整性,保证连续证明状态之间的每个差异都被记录,从而揭示隐藏的前提。
  • 在 HLE-Verified Gold 上,Theoria 以 91.4% 的严格精度认证了 185 个问题中的 105 个。
  • 它生成人类可读的证明轨迹,其中每一步都可以被独立质疑。
  • 在 GPQA Diamond 上,认证精度达到 97.1%。

该方法允许用户通过结构化分析而非不透明的分数来验证正确性,为整体 LLM 裁判提供了一种补充方法。