RedactionBench: Бенчмарк для контекстуальной приватности в ИИ

RedactionBench представляет ручно аннотированный бенчмарк из 200 различных документов из 11 областей для оценки приватности при удалении данных. В нем используется R-Score — метрика на уровне символов, которая равнозначно рассматривает семантически схожие варианты удаления и снижает смещение, вызванное выбором форматирования. Результаты человеческих оценок показывают значительное несогласие по вопросам контекстуального удаления (47,7% консенсуса), что подчёркивает субъективный характер приватности и обусловливает необходимость стандартизированных, контекстуально-ориентированных бенчмарков.