تتحقق Theoria من الاستدلال غير الرسمي من خلال تدقيق انتقالات الحالة المtypedة

Theoria هي بنية تحقق مصممة لسد الفجوة بين مساعدي البراهين الرسمية وحكام نماذج اللغات الكبيرة القياسية (scalar LLM judges) من خلال جعل إجابات الذكاء الاصطناعي قابلة للتدقيق. يعيد كتابة الحلول المرشحة إلى تسلسل من انتقالات الحالة المtypedة، حيث يُرخص كل منها بتبرير صريح مثل اقتباس أو حساب.

يفرض النظام اكتمال التغيير، مما يضمن accounted for لكل فرق بين حالات البرهان المتتالية للكشف عن المقدمات المخفية.
على مجموعة HLE-Verified Gold، تقوم Theoria بتصديق 105 من أصل 185 مشكلة بدقة صارمة تبلغ 91.4%.
ينتج مسارات برهانية قابلة للقراءة البشرية حيث يمكن تحدي كل خطوة بشكل مستقل.
على GPQA Diamond، تصل الدقة المصدقة إلى 97.1%.

تتيح هذه الطريقة للمستخدمين التحقق من الصحة من خلال التحليل الهيكلي بدلاً من النتائج غير الواضحة، مما يوفر طريقة مكملة لحكام نماذج اللغات الكبيرة الشاملين.

Benchmark	النموذج	الدرجة
GPQA Diamond	Theoria	97.1%
Humanity's Last Exam	Theoria	91.4%

Benchmarks