Theoria es una arquitectura de verificación diseñada para cerrar la brecha entre asistentes de prueba formales y jueces LLM escalares, haciendo que las respuestas de IA sean auditable. Reescribe soluciones candidatas en una secuencia de transiciones de estado tipificado, cada una respaldada por una justificación explícita como una cita o un cálculo.
- El sistema garantiza la completitud del cambio, asegurando que cada diferencia entre estados de prueba consecutivos esté contabilizada para revelar premisas ocultas.
- En HLE-Verified Gold, Theoria certifica 105 de 185 problemas con una precisión estricta del 91.4%.
- Produce trazas de prueba legibles por humanos donde cada paso puede ser desafiado independientemente.
- En GPQA Diamond, la precisión certificada alcanza el 97.1%.
El enfoque permite a los usuarios verificar la corrección mediante análisis estructurado en lugar de puntuaciones opacas, ofreciendo un método complementario a los jueces LLM holísticos.