Исследование показывает, что оценка диффузионных больших языковых моделей (dLLM) крайне чувствительна к шаблонам промптов, создавая иллюзию того, что параллельное декодирование повышает эффективность без потери качества.

  • Текущие методы параллельного декодирования стабильно уступают базовому варианту однозадачного декодирования и не способны преодолеть компромисс между скоростью и качеством.
  • Рейтинг методов декодирования сильно зависит от незначительных изменений в шаблонах промптов, что приводит к непоследовательным результатам оценки.
  • Эффективный шаблон промпта может достигать высоких результатов с меньшим количеством шагов денормализации, превосходя маржинальные выгоды от увеличения этих шагов.

Эти выводы подчеркивают необходимость надежных руководств по оценке для предотвращения предвзятых заключений о методах декодирования dLLM.