연구자들은 숨겨진 상태 내에서 다단계 추론을 수행하기 위해 루프 처리된 패딩된 Transformer를 사용하는 LOTUS라는 방법을 소개했습니다. 이는 3B 파라미터 규모에서 잠재적 사슬 사고(CoT)와 명시적 사슬 사고 간의 성능 격차를 효과적으로 해소합니다. 모델은 골드 CoT 단계 토큰에 대한 교차 엔트로피 손실을 사용하여 R번의 반복 동안 K개의 잠재 블록을 병렬로 처리합니다.

  • LOTUS는 3B 규모에서 명시적 CoT 성능과 맞먹는 최초의 잠재 CoT 방법입니다.
  • 토큰별 생성과 비교하여 사고 단계 지연 시간을 2.5배에서 6.9배 줄입니다.
  • 루프 후 잠재 벡터를 기본 LM 헤드에 투영하면 골드 추론 단계가 복원되고 다른 유효한 중간 단계도 드러납니다.
  • 아블레이션 실험을 통해 이 성능에는 루프형 백본과 골드 CoT 토큰에 대한 병렬 감독이 모두 필수적임이 확인되었습니다.

이 접근 방식은 잠재 공간이 해석 가능하고 CoT와 정렬될 수 있음을 보여주며, 복잡한 추론 작업에 대해 명시적 토큰 생성보다 효율적인 대안을 제공합니다.