PASTA: подход к перефразированию и самообучению для обновления знаний в больших языковых моделях

В данной статье представлен PASTA — фреймворк, предназначенный для интеграции детальной фактической информации из новостных статей в большие языковые модели (LLM) с целью решения проблемы обновления знаний. Подход сочетает аугментацию данных, генерацию вопросов и ответов, а также новый процесс самообучения Direct Preference Optimization (DPO), что позволяет осуществлять перезапись знаний и подавлять галлюцинации.

PASTA использует комбинацию аугментации данных и генерации вопросов и ответов вместе с процессом самообучения DPO. Метод одновременно обеспечивает перезапись знаний и подавляет галлюцинации в обновленных моделях. Экспериментальная оценка на веб-статьях, опубликованных после момента отсечения знаний базовой модели, показала улучшение точности с 0.02 до 0.82. Фреймворк сохраняет общие языковые способности, создавая при этом специализированные LLM для конкретных областей.

PASTA демонстрирует эффективность при создании специализированных моделей, которые точно отвечают на вопросы о конкретной фактической информации, такой как новостные статьи, с которыми LLM обычно испытывают трудности.