Theoria проверяет неформальные рассуждения, аудитуя переходы типизированного состояния

Theoria — это архитектура верификации, предназначенная для устранения разрыва между формальными помощниками доказательства и скалярными судьями LLM за счёт обеспечения аудируемости ответов ИИ. Она переписывает кандидаты решений в последовательность типизированных переходов состояния, каждый из которых обоснован явным оправданием, таким как цитата или вычисление.

Система обеспечивает полноту изменений, гарантируя, что каждое различие между последовательными состояниями доказательства учтено для выявления скрытых предпосылок.
На HLE-Verified Gold Theoria сертифицирует 105 из 185 задач со строгой точностью 91.4%.
Она генерирует понятные человеку цепочки доказательств, где каждый шаг можно независимо оспорить.
На GPQA Diamond сертифицированная точность достигает 97.1%.

Подход позволяет пользователям проверять корректность через структурированный анализ вместо непрозрачных оценок, предлагая дополняющий метод к целостным судьям LLM.

Бенчмарк	Модель	Результат
GPQA Diamond	Theoria	97.1%
Humanity's Last Exam	Theoria	91.4%

Бенчмарки