Исследование показывает, что оценка диффузионных больших языковых моделей (dLLM) крайне чувствительна к шаблонам промптов, создавая иллюзию того, что параллельное декодирование повышает эффективность без потери качества.
- Текущие методы параллельного декодирования стабильно уступают базовому варианту однозадачного декодирования и не способны преодолеть компромисс между скоростью и качеством.
- Рейтинг методов декодирования сильно зависит от незначительных изменений в шаблонах промптов, что приводит к непоследовательным результатам оценки.
- Эффективный шаблон промпта может достигать высоких результатов с меньшим количеством шагов денормализации, превосходя маржинальные выгоды от увеличения этих шагов.
Эти выводы подчеркивают необходимость надежных руководств по оценке для предотвращения предвзятых заключений о методах декодирования dLLM.