연구자들은 단일 순전파 내에서 2홉 추론을 개선하기 위해 이산 임베딩 채널과 연속 은닉 상태 채널을 모두 전달하는 루핑 트랜스포머 아키텍처인 DiscoLoop를 제안했습니다. 이 방법은 추가 학습 없이 은닉 상태를 브리지 토큰 임베딩과 재정렬함으로써 표준 루핑 트랜스포머에서 발견되는 표현적 병목 현상을 해결합니다.
- 표준 비순환형 트랜스포머는 깊이 국소 저장 문제로 인해 초기 레이어에서 학습된 사실이 두 번째 홉 검색에 사용할 수 없습니다.
- 이전 루핑 트랜스포머는 디코딩 가능한 엔티티가 정확했음에도 불구하고 은닉 상태가 브리지 토큰 임베딩과 충분히 정렬되지 않아 불완전한 일반화만 달성했습니다.
- DiscoLoop는 혼합 채널 설계를 활용하여 상징적 및 합성 언어 작업에서 훨씬 적은 학습 단계로 거의 완벽한 정확도를 달성합니다.
- 실제 사전 훈련에서 이 아키텍처는 루핑 트랜스포머 기반 모델보다 낮은 학습 손실과 더 강력한 벤치마크 성능을 달성합니다.
저자들은 혼합 채널 설계가 실용적인 언어 모델링으로 이전되어 모델이 다단계 추론을 더 효과적으로 내부화할 수 있기 때문에 이를 중요하게 여깁니다.