Theoria memverifikasi penalaran informal dengan mengaudit transisi keadaan bertipe

Theoria adalah arsitektur verifikasi yang dirancang untuk menjembatani kesenjangan antara asisten bukti formal dan hakim LLM skalar dengan membuat jawaban AI dapat diaudit. Ia menulis ulang solusi kandidat menjadi urutan transisi keadaan bertipe, masing-masing dilisensikan oleh justifikasi eksplisit seperti kutipan atau komputasi.

Sistem ini memaksakan kelengkapan perubahan, memastikan setiap perbedaan antara keadaan bukti yang berurutan accounted for untuk menyingkap premis tersembunyi.
Pada HLE-Verified Gold, Theoria mensertifikasi 105 dari 185 masalah dengan presisi ketat 91,4%.
Ia menghasilkan jejak bukti yang dapat dibaca manusia di mana setiap langkah dapat ditantang secara independen.
Pada GPQA Diamond, presisi tersertifikasi mencapai 97,1%.

Pendekatan ini memungkinkan pengguna memverifikasi kebenaran melalui analisis terstruktur daripada skor yang tidak transparan, menawarkan metode pelengkap untuk hakim LLM holistik.

Benchmark	Model	Skor
GPQA Diamond	Theoria	97.1%
Humanity's Last Exam	Theoria	91.4%

Benchmark