Набор данных AIriskEval-edu-db2 для оценки рисков в объяснениях ИИ для K-12

Исследователи представляют AIriskEval-edu-db2, новый набор данных, предназначенный для обучения и оценки аудиторов на основе LLM для педагогической оценки рисков в образовательном контенте K-12. Набор данных содержит 1 639 объяснений, полученных из 170 вопросов ScienceQA по естественным наукам, языковому искусству и общественным наукам.

Каждый вопрос включает одно объяснение, написанное человеком, вместе с 11, созданными профилями учителей, симулированными LLM, с различными педагогическими рисками.
Комплексная рубрика рисков охватывает пять измерений: фактическая точность, глубина и полнота, фокус и релевантность, соответствие уровню студента и идеологическая предвзятость.
Набор данных добавляет 785 объяснений со структурированными аннотациями объяснимости, включая локализацию и описание рисков, проверенные экспертами-учителями.
Эксперименты по валидации сравнивают проприетарные модели с дообученной локальной моделью Llama 3.1 8B для обнаружения рисков и оценки объяснимости.

Исследование оценивает, позволяет ли контролируемое дообучение на этом наборе данных локально развертываемой модели приблизиться или превзойти более сильные передовые модели, сохраняя конфиденциальность при аудите в образовании.