Theoriaは、AIの回答を検証可能にすることで、形式証明支援ツールとスカラーLLM判定者の間のギャップを埋めるために設計された検証アーキテクチャです。それは候補解答を明示的な根拠(引用や計算など)によって裏打ちされた型付き状態遷移のシーケンスへと書き換えます。
- システムは変更の完全性を強制し、連続する証明状態間のすべての差分が accounted for され、隠れた前提を浮き彫りにします。
- HLE-Verified Goldにおいて、Theoriaは185問中105問を91.4%の厳密な精度で認定します。
- それぞれのステップを独立して検証可能な人間が読みやすい証明トレースを生成します。
- GPQA Diamondでは、認定精度が97.1%に達します。
このアプローチにより、ユーザーは不透明なスコアではなく構造化された分析を通じて正しさを検証でき、包括的なLLM判定者に代わる補完的な方法を提供します。