Исследователи представляют AIriskEval-edu-db2, новый набор данных, предназначенный для обучения и оценки аудиторов на основе LLM для педагогической оценки рисков в образовательном контенте K-12. Набор данных содержит 1 639 объяснений, полученных из 170 вопросов ScienceQA по естественным наукам, языковому искусству и общественным наукам.
- Каждый вопрос включает одно объяснение, написанное человеком, вместе с 11, созданными профилями учителей, симулированными LLM, с различными педагогическими рисками.
- Комплексная рубрика рисков охватывает пять измерений: фактическая точность, глубина и полнота, фокус и релевантность, соответствие уровню студента и идеологическая предвзятость.
- Набор данных добавляет 785 объяснений со структурированными аннотациями объяснимости, включая локализацию и описание рисков, проверенные экспертами-учителями.
- Эксперименты по валидации сравнивают проприетарные модели с дообученной локальной моделью Llama 3.1 8B для обнаружения рисков и оценки объяснимости.
Исследование оценивает, позволяет ли контролируемое дообучение на этом наборе данных локально развертываемой модели приблизиться или превзойти более сильные передовые модели, сохраняя конфиденциальность при аудите в образовании.