Авторы предлагают параметрически нейтральную замену стандартной полносвязной сети (FFN) в трансформерах, названную NC-FFN, которая использует явные операции нечетких множеств, такие как пересечение и ограниченное положительное отрицание. Такая конструкция позволяет каждому скрытому узлу нести явную логическую форму, сохраняя при этом перплексивность базовой модели GELU на больших масштабах.
Для решения проблем локализации логики и снижения производительности модель включает блок последовательных квантификаторов с обучаемыми скоростями забывания. Этот подход позволяет рано в процессе обучения восстановить грамматические дефициты и умеренно улучшает показатели LAMBADA. Получившаяся FFN становится прозрачной, где узлы действуют как детекторы грамматического лицензирования, активируясь на лицензиаторы, такие как сравнительные конструкции или элементы отрицательной полярности, для предсказания лицензированных слов. Эта работа предоставляет читаемый и интерпретируемый по конструкции механизм того, как FFN трансформеров лицензируют язык, предлагая объяснение как представления, так и функции.