Theoria는 형식화된 상태 전이 감사를 통해 비형식적 추론을 검증합니다

Theoria는 AI 답변의 감사 가능성을 확보하여 형식 증명 보조 도구와 스칼라 LLM 판정자 간의 격차를 해소하도록 설계된 검증 아키텍처입니다. 이는 후보 솔루션을 인용이나 계산과 같은 명시적인 정당화에 의해 허가된 형식화된 상태 전이의 시퀀스로 재작성합니다.

이 접근 방식은 사용자에게 불투명한 점수 대신 구조화된 분석을 통해 정확성을 검증할 수 있는 기회를 제공하며, 포괄적인 LLM 판정자에 대한 보완적인 방법을 제시합니다.

벤치마크	모델	점수
GPQA Diamond	Theoria	97.1%
Humanity's Last Exam	Theoria	91.4%

벤치마크