DialogPII: Un conjunto de datos multilingüe de transcripciones de diálogo sintéticas para detectar información personal

Los investigadores presentan DialogPII, un conjunto de datos multilingüe de transcripciones de diálogo sintéticas diseñado para apoyar el desarrollo y la evaluación de sistemas automáticos para detectar información personalmente identificable. Este recurso aborda preocupaciones de privacidad en dominios sensibles proporcionando datos anotados en 11 idiomas y ocho escenarios de interacción.

Cubre 19 tipos de entidades en inglés, árabe, finés, francés, alemán, hindi, italiano, polaco, portugués, español y turco.
Incluye ocho escenarios: llamadas de emergencia, anamnesis médica, sesiones de terapia, comunicación con seguros, atención al cliente, entrevistas clínicas, informes policiales y terapia grupal.
Los datos se generaron semiautomáticamente utilizando modelos de lenguaje grandes, se localizaron para contextos específicos y se convirtieron a voz mediante síntesis de texto a voz.
Las transcripciones se produjeron con Whisper y se anotaron mediante proyección automática con corrección manual.
El lanzamiento incluye modelos de reconocimiento de entidades nombradas multilingües de referencia y métricas de validación técnica.

El conjunto de datos proporciona recursos alineados de texto escrito y derivados del habla para facilitar la creación de sistemas robustos de desidentificación que protejan la privacidad individual en datos conversacionales.