Los investigadores presentan DialogPII, un conjunto de datos multilingüe de transcripciones de diálogo sintéticas diseñado para apoyar el desarrollo y la evaluación de sistemas automáticos para detectar información personalmente identificable. Este recurso aborda preocupaciones de privacidad en dominios sensibles proporcionando datos anotados en 11 idiomas y ocho escenarios de interacción.
- Cubre 19 tipos de entidades en inglés, árabe, finés, francés, alemán, hindi, italiano, polaco, portugués, español y turco.
- Incluye ocho escenarios: llamadas de emergencia, anamnesis médica, sesiones de terapia, comunicación con seguros, atención al cliente, entrevistas clínicas, informes policiales y terapia grupal.
- Los datos se generaron semiautomáticamente utilizando modelos de lenguaje grandes, se localizaron para contextos específicos y se convirtieron a voz mediante síntesis de texto a voz.
- Las transcripciones se produjeron con Whisper y se anotaron mediante proyección automática con corrección manual.
- El lanzamiento incluye modelos de reconocimiento de entidades nombradas multilingües de referencia y métricas de validación técnica.
El conjunto de datos proporciona recursos alineados de texto escrito y derivados del habla para facilitar la creación de sistemas robustos de desidentificación que protejan la privacidad individual en datos conversacionales.