ELF와 같은 연속 확산 언어 모델은 기록적인 낮은 생성 퍼플렉시티(Gen-PPL)를 달성하지만, Gen-PPL이 잘못 보상하는 과도한 반복 문제를 겪습니다. 저자들은 이 문제를 자기 조건화 피드백 루프 내의 단일 방향을 따른 수축성 끌개로 식별하고 이를 감산하는 ACE(Attractor-Contrast-Escape)를 제안합니다.
- ACE는 각 단계의 피드백에서 라벨 없는 단일 방향을 감산하며, 이는 105M 모델에서 한 번 추정됩니다.
- 이 방법은 342M 및 652M 모델과 다양한 샘플러 전반에 걸쳐 경쟁력 있는 품질을 유지하면서 반복을 인간 수준에 가깝게 줄입니다.
- Gen-PPL이 반복을 보상하기 때문에, 저자들은 인간이 정리한 텍스트 생성을 위한 컴퓨팅 효율성을 측정했으며, ACE가 1.5~5배 더 저렴함을 발견했습니다.
이 연구는 낮은 퍼플렉시티 점수가 반복적 행동을 숨김으로써 모델 품질을 과대평가할 수 있음을 보여주며, 상당한 계산 오버헤드 없이 텍스트의 자연스러움을 개선하는 차원별 해결책을 제시합니다.