Apostate introduce un nuevo operador de edición de covector contrastivo definido como E = I − R Dᵀ. Este método elimina el comportamiento de rechazo al aislar la varianza dañina mientras preserva el comportamiento inofensivo a través de un predictor W entrenado en activaciones inofensivas y suprimido en prompts dañinos. En granite-3.3-8b, reduce la tasa de rechazo del 96.0% al 5.0% con solo un aumento de 0.081-nat en la divergencia KL inofensiva.
Nuevo operador de ablación: edición de covector contrastivo
Traducido del English → Español