NC-FFN은 자기 망각 양화자를 도입하여 트랜스포머 FFN을 해석 가능하게 만듭니다

저자들은 표준 피드포워드 네트워크(FFN)에 대한 파라미터 중립적 대체안으로, 교차 및 유계 양의 부정과 같은 명시적인 퍼지 집합 연산을 사용하는 NC-FFN을 제안합니다. 이 설계는 모든 은닉 유닛이 명시적인 논리 형태를携带하면서 스케일에서 GELU 베이스라인의 펄플렉시티를 유지할 수 있게 합니다.

논리 국소화 및 성능 저하 문제를 해결하기 위해 모델은 학습된 망각률을 가진 시퀀스 양화자 블록을 통합합니다. 이 접근법은 훈련 초기에 문법적 결핍을 회복하고 LAMBADA 점수를 약간 향상시킵니다.

결과적으로 FFN은 해석 가능해지며, 유닛은 비교급이나 부정 극성 항목과 같은 인허가 요인에 대해 활성화되어 인허가된 단어를 예측하는 문법 인허가 감지기로 작용합니다.

이 작업은 트랜스포머 FFN이 언어를 어떻게 인허가하는지에 대해 읽기 쉽고 구성 단계부터 해석 가능한 메커니즘을 제공하며, 표현과 기능 모두에 대한 설명을 제시합니다.