디코더 전용 언어 모델의 은닉 상태가 입력 복원을 가능하게 한다는 연구 결과

본 연구는 연속 임베딩 공간 최적화를 통해 마지막 층의 은닉 상태에서 원래 입력 토큰 시퀀스를 복원함으로써 디코더 전용 언어 모델의 역전파를 조사한다.

이 방법은 연속 공간에서 소프트 프록시를 사용하며, 내부 신호(랭크 궤적 및 손실 곡선 등)를 노출하기 위해 내부 루프 종료 시에만 토큰을 커밋한다.
분석 결과, 공간 접두사가 붙은 기능어는 실패를 유발하는 반면 콘텐츠 기반 토큰은 거의 완벽하게 복원되는 뚜렷한 범주적 비대칭성이 나타났다.
10토큰 C4 프롬프트에서 후보 창이 넓어짐에 따라 정확 일치율이 66.9%에서 97.5%로 상승하여 대부분의 오류가 복구 가능한 근접 오차임을 나타낸다.
연속 공식화는 최적화를 관측 가능하게 만들고 SIPIT과 같은 빠른 단계별 하드 투영 방식과는 달리 실패를 감지할 수 있게 한다.

이 결과는 GPT-2의 마지막 층 은닉 상태가 입력 텍스트에 매우 민감하여 원래 시퀀스의 효과적인 복원이 가능함을 보여준다.