REDACT представляет систематически контролируемый мультималярный бенчмарк для обнаружения персональных данных, включающий 51 тип сущностей, 4127 паттернов поверхностных форм и 25 языков. Бенчмарк оценивает пять детекторов на 1000 записях, показывая, что модели на основе правил не справляются с высококритичными данными, в то время как модели на основе больших языковых моделей показывают лучшие результаты, особенно в высокочувствительных категориях. Оценка LLM без ссылки на эталон подтверждает, что назначение чувствительности по уровням является наиболее сложной осью оценки.