Понимание иллюзии оценки в диффузионных больших языковых моделях

Исследование показывает, что оценка диффузионных больших языковых моделей (dLLM) крайне чувствительна к шаблонам промптов, создавая иллюзию того, что параллельное декодирование повышает эффективность без потери качества.

Текущие методы параллельного декодирования стабильно уступают базовому варианту однозадачного декодирования и не способны преодолеть компромисс между скоростью и качеством.
Рейтинг методов декодирования сильно зависит от незначительных изменений в шаблонах промптов, что приводит к непоследовательным результатам оценки.
Эффективный шаблон промпта может достигать высоких результатов с меньшим количеством шагов денормализации, превосходя маржинальные выгоды от увеличения этих шагов.

Эти выводы подчеркивают необходимость надежных руководств по оценке для предотвращения предвзятых заключений о методах декодирования dLLM.