DialogPII: многоязычный набор синтетических диалоговых транскриптов для обнаружения персональных данных

Исследователи представляют DialogPII — многоязычный набор синтетических диалоговых транскриптов, разработанный для поддержки разработки и оценки автоматических систем обнаружения лично идентифицируемой информации. Этот ресурс решает вопросы конфиденциальности в чувствительных областях, предоставляя аннотированные данные на 11 языках и в восьми сценариях взаимодействия.

Охватывает 19 типов сущностей на английском, арабском, финском, французском, немецком, хинди, итальянском, польском, португальском, испанском и турецком языках.
Включает восемь сценариев: вызовы экстренных служб, сбор анамнеза в медицине, терапевтические сеансы, коммуникация со страховыми компаниями, поддержка клиентов, клинические интервью, полицейские отчеты и групповая терапия.
Данные были сгенерированы полуавтоматически с использованием больших языковых моделей, локализованы под конкретные контексты и преобразованы в речь через синтез речи из текста.
Транскрипты созданы с помощью Whisper и аннотированы путем автоматической проекции с последующей ручной коррекцией.
В релиз включены базовые многоязычные модели распознавания именованных сущностей и метрики технической валидации.

Набор данных предоставляет выровненные текстовые и речевые ресурсы для создания надежных систем деидентификации, защищающих личную конфиденциальность в диалоговых данных.