Theoriaは型付き状態遷移の監査により非形式的推論を検証する

Theoriaは、AIの回答を検証可能にすることで、形式証明支援ツールとスカラーLLM判定者の間のギャップを埋めるために設計された検証アーキテクチャです。それは候補解答を明示的な根拠（引用や計算など）によって裏打ちされた型付き状態遷移のシーケンスへと書き換えます。

このアプローチにより、ユーザーは不透明なスコアではなく構造化された分析を通じて正しさを検証でき、包括的なLLM判定者に代わる補完的な方法を提供します。

ベンチマーク	モデル	スコア
GPQA Diamond	Theoria	97.1%
Humanity's Last Exam	Theoria	91.4%

ベンチマーク