TRAP: Benchmark para la finalización de tareas y resistencia a la extracción activa de privacidad
TRAP evalúa qué tan bien los modelos completan tareas utilizando datos privados sin filtrarlos. En 22 modelos, todos muestran una filtración de privacidad no trivial, con la capacidad de seguir instrucciones vinculada a una mayor filtración. El aislamiento estructural de campos privados previene la filtración reemplazando los campos privados con claves hash, manteniendo la precisión de la tarea sin sacrificar la privacidad.