NC-FFN introduce cuantificadores de auto-olvido para hacer legibles las FFNs de los transformadores

Los autores proponen un reemplazo neutro en parámetros para la red feed-forward (FFN) estándar en transformadores, llamado NC-FFN, que utiliza operaciones explícitas de conjuntos difusos como intersección y negación positiva acotada. Este diseño permite que cada unidad oculta lleve una forma lógica explícita mientras mantiene la perplejidad de la línea base GELU a escala.

Para abordar la localización lógica y el deterioro del rendimiento, el modelo incorpora un bloque de cuantificadores de secuencia con tasas de olvido aprendidas. Este enfoque recupera déficits gramaticales temprano en el entrenamiento y mejora modestamente las puntuaciones LAMBADA. La FFN resultante se vuelve legible, con unidades que actúan como detectores de habilitación gramatical que se activan ante habilitadores como comparativos o elementos de polaridad negativa para predecir palabras habilitadas. Este trabajo proporciona un mecanismo legible e interpretable por construcción sobre cómo las FFNs de los transformadores habilitan el lenguaje, ofreciendo una explicación tanto de la representación como de la función.