Fusión de datos con verdad única y múltiple utilizando modelos de lenguaje grandes

Este artículo investiga el uso de Modelos de Lenguaje Grandes (LLMs) para tareas de fusión de datos que involucran datos tabulares, cubriendo tanto escenarios de verdad única como de verdad múltiple. El estudio evalúa varias estrategias de prompting en tres conjuntos de datos de referencia para determinar su efectividad al resolver valores conflictivos provenientes de múltiples fuentes.

Se evalúan empíricamente prompts dependientes del dominio, independientes del dominio, zero-shot y one-shot en tres conjuntos de datos de referencia diferentes.
Los enfoques basados en LLM superan a los métodos tradicionales de descubrimiento de verdad no supervisados, específicamente DART y LTM, en todos los conjuntos de datos probados.
El código fuente de este estudio ha sido puesto a disposición pública en GitHub.

Los autores consideran esto importante ya que demuestra que los LLMs pueden manejar efectivamente problemas de integración de datos donde múltiples fuentes proporcionan información potencialmente conflictiva.