본 연구는 연속 임베딩 공간 최적화를 통해 마지막 층의 은닉 상태에서 원래 입력 토큰 시퀀스를 복원함으로써 디코더 전용 언어 모델의 역전파를 조사한다.

  • 이 방법은 연속 공간에서 소프트 프록시를 사용하며, 내부 신호(랭크 궤적 및 손실 곡선 등)를 노출하기 위해 내부 루프 종료 시에만 토큰을 커밋한다.
  • 분석 결과, 공간 접두사가 붙은 기능어는 실패를 유발하는 반면 콘텐츠 기반 토큰은 거의 완벽하게 복원되는 뚜렷한 범주적 비대칭성이 나타났다.
  • 10토큰 C4 프롬프트에서 후보 창이 넓어짐에 따라 정확 일치율이 66.9%에서 97.5%로 상승하여 대부분의 오류가 복구 가능한 근접 오차임을 나타낸다.
  • 연속 공식화는 최적화를 관측 가능하게 만들고 SIPIT과 같은 빠른 단계별 하드 투영 방식과는 달리 실패를 감지할 수 있게 한다.

이 결과는 GPT-2의 마지막 층 은닉 상태가 입력 텍스트에 매우 민감하여 원래 시퀀스의 효과적인 복원이 가능함을 보여준다.