REDACT introduce un benchmark multilingüe con control sistemático para la detección de información personalmente identificable, que incluye 51 tipos de entidades, 4.127 patrones de forma superficial y 25 idiomas. Evalúa cinco detectores en 1.000 registros, revelando que los modelos basados en reglas fallan en datos de alto riesgo, mientras que los LLMs tienen un mejor desempeño, especialmente en categorías de alta sensibilidad. Una evaluación de LLM sin referencia confirma que la asignación por nivel de sensibilidad es el eje de evaluación más desafiante.
REDACT: Benchmark multilingüe de PII con control sistemático
Traducido del English → Español