RedactionBench introduce un benchmark anotado manualmente de 200 documentos diversos en 11 dominios para evaluar la redacción que preserva la privacidad. Cuenta con R-Score, una métrica a nivel de caracteres que trata las redacciones semánticamente similares por igual y reduce el sesgo derivado de las elecciones de formato. Las evaluaciones humanas revelan un desacuerdo significativo en las redacciones contextuales (47.7% de consenso), destacando la naturaleza subjetiva de la privacidad y motivando la necesidad de benchmarks estandarizados y conscientes del contexto.