研究者らは、K-12教育コンテンツの教育的リスク評価のためにLLMベースの監査員を訓練・評価するために設計された新しいデータセットであるAIriskEval-edu-db2を紹介する。このデータセットには、科学、言語芸術、社会科学にわたる170のScienceQA質問から派生した1,639の解説が含まれている。
- 各質問には、人間の書いた解説1つと、異なる教育的リスクを持つLLMシミュレーション教師プロファイルによって生成された11の解説が含まれる。
- 包括的なリスク評価基準は、事実の精度、深さと完全性、焦点と関連性、生徒レベルの適切さ、イデオロギー的バイアスの5つの次元をカバーしている。
- このデータセットは、リスクの局所化と記述を含む構造化された説明可能性注釈付きの785の解説を追加し、専門家教師によって検証されている。
- 検証実験では、プロプライエタリモデルと、リスク検出および説明可能性評価のためにファインチューニングされたローカルのLlama 3.1 8Bモデルを比較する。
本研究は、このデータセットでの教師ありファインチューニングが、教育監査におけるプライバシーを維持しつつ、より強力なフロンティアモデルに迫るかそれを超えることができるかどうかを評価する。