Представлен бенчмарк Mannheim Data Integration Benchmark (MaDI-Bench) — первый публичный бенчмарк для сквозной интеграции реляционных таблиц, решающий проблему отсутствия всесторонних инструментов оценки в этой области. Он охватывает все этапы процесса интеграции, включая сопоставление схем, нормализацию значений, блокировку сущностей, сопоставление сущностей и слияние данных.
- MaDI-Bench предоставляет базовые задачи, охватывающие несколько областей применения, требующих полного конвейера от сопоставления схем до разрешения конфликтов.
- Бенчмарк включает универсальный метод получения вариантов задач для предотвращения быстрого насыщения по мере развития систем интеграции данных.
- Валидация была проведена с использованием конвейеров, созданных вручную, лучших в своем классе конвейеров и конвейера на основе LLM.
Бенчмарк позволяет измерять как пошаговую, так и сквозную производительность конвейеров интеграции данных, при этом все материалы доступны для публичного скачивания.