Мы создали и опубликовали большой биомедицинский набор данных, содержащий 1,88 миллиона статей PMC. Анализ показывает, что авторские аннотации варьируются по качеству и соответствию исходным статьям, что позволяет эффективно выбирать обучающие данные. Обучение на высококачественных подмножествах превосходит случайный выбор и сопоставимо с более крупными случайными подмножествами по метрикам фактичности.
Выбор обучающих данных с учетом качества для научного синтеза
Переведено с English → Русский