Представлен бенчмарк Mannheim Data Integration Benchmark (MaDI-Bench) — первый публичный бенчмарк для сквозной интеграции реляционных таблиц, решающий проблему отсутствия всесторонних инструментов оценки в этой области. Он охватывает все этапы процесса интеграции, включая сопоставление схем, нормализацию значений, блокировку сущностей, сопоставление сущностей и слияние данных.

  • MaDI-Bench предоставляет базовые задачи, охватывающие несколько областей применения, требующих полного конвейера от сопоставления схем до разрешения конфликтов.
  • Бенчмарк включает универсальный метод получения вариантов задач для предотвращения быстрого насыщения по мере развития систем интеграции данных.
  • Валидация была проведена с использованием конвейеров, созданных вручную, лучших в своем классе конвейеров и конвейера на основе LLM.

Бенчмарк позволяет измерять как пошаговую, так и сквозную производительность конвейеров интеграции данных, при этом все материалы доступны для публичного скачивания.