Исследователи представляют DialogPII — многоязычный набор синтетических диалоговых транскриптов, разработанный для поддержки разработки и оценки автоматических систем обнаружения лично идентифицируемой информации. Этот ресурс решает вопросы конфиденциальности в чувствительных областях, предоставляя аннотированные данные на 11 языках и в восьми сценариях взаимодействия.
- Охватывает 19 типов сущностей на английском, арабском, финском, французском, немецком, хинди, итальянском, польском, португальском, испанском и турецком языках.
- Включает восемь сценариев: вызовы экстренных служб, сбор анамнеза в медицине, терапевтические сеансы, коммуникация со страховыми компаниями, поддержка клиентов, клинические интервью, полицейские отчеты и групповая терапия.
- Данные были сгенерированы полуавтоматически с использованием больших языковых моделей, локализованы под конкретные контексты и преобразованы в речь через синтез речи из текста.
- Транскрипты созданы с помощью Whisper и аннотированы путем автоматической проекции с последующей ручной коррекцией.
- В релиз включены базовые многоязычные модели распознавания именованных сущностей и метрики технической валидации.
Набор данных предоставляет выровненные текстовые и речевые ресурсы для создания надежных систем деидентификации, защищающих личную конфиденциальность в диалоговых данных.