NC-FFN introduz quantificadores de autoesquecimento para tornar legíveis as FFNs de transformers

Os autores propõem uma substituição neutra em parâmetros para a rede feed-forward (FFN) padrão em transformers, chamada NC-FFN, que utiliza operações explícitas de conjuntos difusos como interseção e negação positiva limitada. Este design permite que cada unidade oculta carregue uma forma lógica explícita enquanto mantém a perplexidade da linha de base GELU em escala.

Para abordar a localização lógica e o desempenho erosivo, o modelo incorpora um bloco de quantificadores de sequência com taxas de esquecimento aprendidas. Esta abordagem recupera déficits gramaticais cedo no treinamento e melhora modestamente as pontuações LAMBADA. A FFN resultante torna-se legível, com unidades atuando como detectores de licenciamento gramatical que disparam em licenciadores como comparativos ou itens de polaridade negativa para prever palavras licenciadas. Este trabalho fornece um mecanismo legível e interpretável por construção sobre como as FFNs de transformers licenciam a linguagem, oferecendo uma explicação tanto da representação quanto da função.