Theoria verifica raciocínio informal auditando transições de estado tipificado

Theoria é uma arquitetura de verificação projetada para preencher a lacuna entre assistentes de prova formais e juízes LLM escalares, tornando as respostas da IA auditáveis. Ela reescreve soluções candidatas em uma sequência de transições de estado tipificado, cada uma licenciada por uma justificativa explícita, como uma citação ou cálculo.

O sistema garante a completude da mudança, assegurando que cada diferença entre estados de prova consecutivos seja contabilizada para revelar premissas ocultas.
No HLE-Verified Gold, Theoria certifica 105 dos 185 problemas com precisão estrita de 91.4%.
Produz rastros de prova legíveis por humanos onde cada passo pode ser desafiado independentemente.
No GPQA Diamond, a precisão certificada atinge 97.1%.

A abordagem permite que os usuários verifiquem a correção por meio de análise estruturada em vez de escores opacos, oferecendo um método complementar aos juízes LLM holísticos.

Benchmark	Modelo	Pontuação
GPQA Diamond	Theoria	97.1%
Humanity's Last Exam	Theoria	91.4%

Benchmarks