NC-FFN introduit des quantificateurs d'auto-oubli pour rendre les FFN des transformateurs lisibles

Les auteurs proposent un remplacement neutre en paramètres pour le réseau feed-forward (FFN) standard dans les transformateurs, appelé NC-FFN, qui utilise des opérations explicites sur les ensembles flous telles que l'intersection et la négation positive bornée. Cette conception permet à chaque unité cachée de porter une forme logique explicite tout en maintenant la perplexité de la baseline GELU à grande échelle.

Pour adresser la localisation de la logique et la dégradation des performances, le modèle intègre un bloc de quantificateurs de séquence avec des taux d'oubli appris. Cette approche récupère les déficits grammaticaux tôt dans l'entraînement et améliode modérément les scores LAMBADA. Le FFN résultant devient lisible, les unités agissant comme des détecteurs de licence grammaticale qui s'activent sur des licencieurs tels que les comparatifs ou les items de polarité négative pour prédire les mots licenciés. Cet travail fournit un mécanisme lisible et interprétable par construction pour la manière dont les FFN des transformateurs licencient le langage, offrant un compte rendu à la fois de la représentation et de la fonction.