Автоматическое генерирование аннотаций к научным статьям на основе обучения с использованием промптов

В данном исследовании изучается обучение с использованием промптов для автоматического генерирования аннотаций к научным статьям с целью решения проблемы отсутствия размеченных обучающих данных в существующих методах, основанных на обучении с учителем. Исследователи разработали специфичные для задачи шаблоны промптов, объединённые с аннотациями статей, в качестве входных данных для нескольких языковых моделей, включая локально развёрнутые GPT-2 и T5, а также ChatGPT, доступный через API. Эксперименты, проведённые на трёх наборах данных, показали, что ChatGPT с использованием шаблонов промптов достиг производительности, сопоставимой с предыдущими методами, основанными на обучении с учителем, без необходимости в специфичных для задачи обучающих примерах. При добавлении небольшого числа примеров в промпты модель значительно превзошла передовые методы на двух из наборов данных. Анализ выявил, что, хотя ChatGPT обладает сильными способностями к языковому моделированию, его производительность сильно зависит от конкретной информации, предоставляемой в промпте. Кейс-стади показали, что сгенерированные аннотации, как правило, связны, информативны и тесно напоминают те, что написаны самими авторами. Этот подход не опирается на специфичные для предметной области обучающие корпуса, что поддерживает последующий текстовый майнинг и библиометрические исследования для статей, у которых уже отсутствуют аннотации.