연구자들은 K-12 교육 콘텐츠의 교육적 위험 평가를 위해 LLM 기반 감사자를 훈련하고 평가하도록 설계된 새로운 데이터셋인 AIriskEval-edu-db2를 소개합니다. 이 데이터셋에는 과학, 언어 예술, 사회과학에 걸친 170개의 ScienceQA 질문에서 파생된 1,639개의 설명이 포함되어 있습니다.
- 각 질문에는 사람이 작성한 설명 하나와 서로 다른 교육적 위험을 가진 LLM 시뮬레이션 교사 프로필이 생성한 11개의 설명이 포함됩니다.
- 포괄적인 위험 기준은 사실적 정확성, 깊이 및 완전성, 초점 및 관련성, 학생 수준 적합성, 이데올로기적 편향의 다섯 가지 차원을 다룹니다.
- 이 데이터셋은 전문가 교사들이 검증한 위험 국소화 및 설명을 포함한 구조화된 설명 가능성 주석이 달린 785개의 설명을 추가합니다.
- 검증 실험에서는 폐쇄형 모델과 위험 감지 및 설명 가능성 평가를 위해 파인튜닝된 로컬 Llama 3.1 8B 모델을 비교합니다.
이 연구는 이 데이터셋에 대한 지도 학습 파인튜닝이 교육 감사에서 프라이버시를 유지하면서 더 강력한 프론티어 모델에 근접하거나 이를 능가할 수 있는지 여부를 평가합니다.