Theoria — это архитектура верификации, предназначенная для устранения разрыва между формальными помощниками доказательства и скалярными судьями LLM за счёт обеспечения аудируемости ответов ИИ. Она переписывает кандидаты решений в последовательность типизированных переходов состояния, каждый из которых обоснован явным оправданием, таким как цитата или вычисление.

  • Система обеспечивает полноту изменений, гарантируя, что каждое различие между последовательными состояниями доказательства учтено для выявления скрытых предпосылок.
  • На HLE-Verified Gold Theoria сертифицирует 105 из 185 задач со строгой точностью 91.4%.
  • Она генерирует понятные человеку цепочки доказательств, где каждый шаг можно независимо оспорить.
  • На GPQA Diamond сертифицированная точность достигает 97.1%.

Подход позволяет пользователям проверять корректность через структурированный анализ вместо непрозрачных оценок, предлагая дополняющий метод к целостным судьям LLM.