La edición de vectores de salida reduce la memorización en LLMs

Un nuevo método llamado edición de vectores de salida modifica mínimamente los vectores de salida de las neuronas MLP para suprimir secuencias memorizadas en modelos de lenguaje grandes, logrando hasta un 87.9% de supresión en OLMo-7B. Este enfoque supera la anulación de activaciones neuronales por un factor de 2.7 y funciona en cuatro modelos de 36-7B parámetros, con tasas de éxito que escalan con el tamaño del modelo y muestran un rendimiento consistente entre arquitecturas.