K-12 AI व्याख्याओं में जोखिम मूल्यांकन के लिए AIriskEval-edu-db2 डेटासेट

शोधकर्ताओं ने AIriskEval-edu-db2 पेश किया, एक नया डेटासेट जो K-12 शैक्षिक सामग्री में शिक्षाविद् जोखिम मूल्यांकन के लिए LLM-आधारित ऑडिटर्स को प्रशिक्षित और मूल्यांकन करने के लिए डिज़ाइन किया गया है। डेटासेट में विज्ञान, भाषा कला और सामाजिक विज्ञान में 170 ScienceQA प्रश्नों से व्युत्पन्न 1,639 व्याख्याएं शामिल हैं।

प्रत्येक प्रश्न में एक मानव-लेखित व्याख्या के साथ 11 LLM-सिमुलेटेड शिक्षक प्रोफ़ाइल द्वारा उत्पन्न व्याख्याएं होती हैं जिनमें अलग-अलग शैक्षिक जोखिम होते हैं।
जोखिम की एक व्यापक रबरिक पांच आयामों को कवर करती है: तथ्यात्मक सटीकता, गहराई और पूर्णता, फोकस और प्रासंगिकता, छात्र-स्तर की उपयुक्तता और विचारधारात्मक पक्षपात।
डेटासेट में विशेषज्ञ शिक्षकों द्वारा मान्यता प्राप्त जोखिम स्थानीकरण और वर्णन सहित संरचित व्याख्यायोग्यता एनोटेशन के साथ 785 व्याख्याएं जोड़ी गई हैं।
वैधता प्रयोगों ने स्वामित्व वाले मॉडल की तुलना जोखिम पता लगाने और व्याख्यायोग्यता मूल्यांकन के लिए फाइन-ट्यून्ड स्थानीय Llama 3.1 8B मॉडल से की है।

अध्ययन इस बात का मूल्यांकन करता है कि क्या इस डेटासेट पर सुपरवाइज्ड फाइन-ट्यूनिंग एक स्थानीय रूप से तैनात करने योग्य मॉडल को शक्तिशाली फ्रंटियर मॉडल के बराबर या बेहतर बनने की अनुमति देता है जबकि शैक्षिक ऑडिट में गोपनीयता को बनाए रखता है।