El Benchmark de Integración de Datos de Mannheim (MaDI-Bench) se presenta como el primer benchmark público para la integración de extremo a extremo de tablas relacionales, abordando la falta de herramientas de evaluación integrales en el campo. Cubre todos los pasos del proceso de integración, incluido el emparejamiento de esquemas, la normalización de valores, el bloqueo de entidades, el emparejamiento de entidades y la fusión de datos.
- MaDI-Bench proporciona tareas base que abarcan varios dominios de aplicación que requieren la canalización completa desde el emparejamiento de esquemas hasta la resolución de conflictos.
- El benchmark incluye un método genérico para derivar variantes de tareas con el fin de mitigar la saturación rápida a medida que los sistemas de integración de datos avanzan.
- La validación se realizó utilizando canalizaciones diseñadas por humanos, una canalización de lo mejor en su clase y una canalización basada en LLM.
El benchmark permite medir tanto el rendimiento paso a paso como el de extremo a extremo de las canalizaciones de integración de datos, con todos los artefactos disponibles para descarga pública.