Theoria est une architecture de vérification conçue pour combler l'écart entre les assistants de preuve formelle et les juges LLM scalaires en rendant les réponses de l'IA auditable. Il réécrit les solutions candidates en une séquence de transitions d'état typées, chacune justifiée par un argument explicite tel qu'une citation ou un calcul.
- Le système impose la complétude du changement, garantissant que chaque différence entre les états de preuve consécutifs est accounted for pour mettre en lumière les prémisses cachées.
- Sur HLE-Verified Gold, Theoria certifie 105 problèmes sur 185 avec une précision stricte de 91,4 %.
- Il produit des traces de preuve lisibles par l'homme où chaque étape peut être contestée indépendamment.
- Sur GPQA Diamond, la précision certifiée atteint 97,1 %.
L'approche permet aux utilisateurs de vérifier la correction par une analyse structurée plutôt que par des scores opaques, offrant une méthode complémentaire aux juges LLM holistiques.