Theoria एक सत्यापन वास्तुकला है जो AI उत्तरों को योग्य बनाकर औपचारिक प्रमाण सहायकों और स्केलर LLM न्यायाधीशों के बीच के अंतर को पाटने के लिए डिज़ाइन की गई है। यह उम्मीदवार समाधानों को टाइप किए गए राज्य संक्रमणों की एक श्रृंखला में पुनर्लिखित करता है, जिनमें से प्रत्येक का स्पष्ट औचित्य जैसे कि उद्धरण या गणना द्वारा समर्थन होता है।

  • सिस्टम परिवर्तन की पूर्णता को लागू करता है, यह सुनिश्चित करते हुए कि क्रमागत प्रमाण अवस्थाओं के बीच हर अंतर को दर्ज किया जाता है ताकि छिपी हुई पूर्वधारणाएं सामने आ सकें।
  • HLE-Verified Gold पर, Theoria 185 में से 105 समस्याओं को 91.4% कठोर सटीकता के साथ प्रमाणित करता है।
  • यह मानव-पठनीय प्रमाण ट्रैस उत्पन्न करता है जहाँ हर चरण को स्वतंत्र रूप से चुनौती दी जा सकती है।
  • GPQA Diamond पर, प्रमाणित सटीकता 97.1% तक पहुँचती है।

यह दृष्टिकोण उपयोगकर्ताओं को अपारदर्शी स्कोर के बजाय संरचित विश्लेषण के माध्यम से सहीता की पुष्टि करने की अनुमति देता है, जो समग्र LLM न्यायाधीशों के लिए एक पूरक विधि प्रदान करता है।