Непрерывные диффузионные языковые модели, такие как ELF, достигают рекордно низкой генеративной перплексии (Gen-PPL), но страдают от чрезмерного повторения, которое Gen-PPL ошибочно поощряет. Авторы выявляют эту проблему как сжимающий аттрактор вдоль одного направления в петле обратной связи самонастройки и предлагают ACE (Attractor-Contrast-Escape) для его устранения.

  • ACE вычитает одно направление без меток из обратной связи на каждом шаге, оцениваемое один раз на модели 105M.
  • Метод снижает повторения до уровня, близкого к человеческому, сохраняя конкурентоспособное качество для моделей 342M и 652M, а также различных сэмплеров.
  • Поскольку Gen-PPL поощряет повторения, авторы измеряют эффективность вычислений при получении чистого человеком текста и обнаруживают, что ACE в 1.5–5 раз дешевле.

Исследование демонстрирует, что низкие показатели перплексии могут преувеличивать качество модели, маскируя повторяющееся поведение, и предлагает решение, специфичное для измерения, улучшающее естественность текста без значительных вычислительных накладных расходов.