يقدم الباحثون مجموعة بيانات AIriskEval-edu-db2، وهي مجموعة بيانات جديدة مصممة لتدريب وتقييم مدققي الذكاء الاصطناعي المعتمدين على النماذج اللغوية الكبيرة (LLM) لتقييم المخاطر التربوية في محتوى التعليم للمرحلة K-12. تحتوي المجموعة على 1,639 تفسيرًا مشتقة من 170 سؤالًا من ScienceQA عبر العلوم، والفنون اللغوية، والعلوم الاجتماعية.

  • يتضمن كل سؤال تفسيرًا واحدًا كتبه بشر إلى جانب 11 تفسيرًا تم إنشاؤها بواسطة ملفات تعريف معلمين محاكاة بالذكاء الاصطناعي (LLM) مع مخاطر تربوية مميزة.
  • تغطي مقياس تقييم المخاطر الشامل خمسة أبعاد: الدقة الواقعية، والعمق والاكتمال، والتركيز والملاءمة، وملاءمة مستوى الطالب، والتحيز الأيديولوجي.
  • تضيف المجموعة 785 تفسيرًا معannotations قابلية للتفسير المهيكلة، بما في ذلك تحديد موقع الخطر ووصفه، والتي تم التحقق منها من قبل معلمين خبراء.
  • تقارن تجارب التحقق النماذج المملوكة بنموذج Llama 3.1 8B المحلي المُضبط بدقة للكشف عن المخاطر وتقييم قابلية التفسير.

تقيّم الدراسة ما إذا كان الضبط الدقيق الخاضع للإشراف على هذه المجموعة يسمح لنموذج قابل للنشر محليًا بالاقتراب من أداء أو تفوق النماذج الحدودية الأقوى مع الحفاظ على الخصوصية في التدقيق التعليمي.