Theoria — это архитектура верификации, предназначенная для устранения разрыва между формальными помощниками доказательства и скалярными судьями LLM за счёт обеспечения аудируемости ответов ИИ. Она переписывает кандидаты решений в последовательность типизированных переходов состояния, каждый из которых обоснован явным оправданием, таким как цитата или вычисление.
- Система обеспечивает полноту изменений, гарантируя, что каждое различие между последовательными состояниями доказательства учтено для выявления скрытых предпосылок.
- На HLE-Verified Gold Theoria сертифицирует 105 из 185 задач со строгой точностью 91.4%.
- Она генерирует понятные человеку цепочки доказательств, где каждый шаг можно независимо оспорить.
- На GPQA Diamond сертифицированная точность достигает 97.1%.
Подход позволяет пользователям проверять корректность через структурированный анализ вместо непрозрачных оценок, предлагая дополняющий метод к целостным судьям LLM.