Слияние данных с одним и несколькими истинами с использованием больших языковых моделей

В данной работе исследуется применение больших языковых моделей (LLM) для задач слияния данных, включающих табличные данные, охватывая как сценарии с одной истиной, так и с несколькими.

Доменно-зависимые, доменно-независимые, zero-shot и one-shot промпты эмпирически оцениваются на трех различных наборах данных для бенчмарков.
Подходы на основе LLM превосходят традиционные методы обнаружения истины без учителя, в частности DART и LTM, на всех протестированных наборах данных.
Исходный код данного исследования опубликован в открытом доступе на GitHub.

Авторы считают это важным, поскольку демонстрируется, что LLM могут эффективно решать задачи интеграции данных, когда несколько источников предоставляют потенциально противоречивую информацию.