Когда Top-1 не работает: калибровка мониторов LoRA для диффузионных языковых моделей с маскировкой

В данном исследовании оценивается эффективность концентрации argmax на позиции top-1 как предупреждения о коллапсе во время дообучения дискретных диффузионных языковых моделей (DLM) с использованием Low-Rank Adaptation (LoRA). Авторы обнаруживают, что этот показатель имеет нулевую точность, поскольку насыщается до начала оптимизации и не способен выявлять фактические коллапсы обучения.

Анализ 816 конфигураций LoRA/PEFT в трех семействах DLM показал, что предупреждение срабатывало во всех случаях, тогда как логи фиксировали нулевое количество реальных коллапсов на горизонте в 200 шагов.
Причина неудачи объясняется насыщением до достижения равновесия: концентрация top-1 уже высока до начала оптимизации и становится нечувствительной к итоговой стабильности обучения.
Оценка максимальной нормы градиента LoRA на отложенной выборке семейства LLaDA выявила конфигурации с наихудшим финальным значением потерь (top-decile) с точностью 0.68 и F1=0.79.
Авторегрессионные контрольные примеры и сбои порогов между семействами ограничивают применимость результата краткосрочным инспектированием DLM-LoRA, а не служат универсальным детектором коллапса.

Авторы рекомендуют отказаться от использования top-1 в качестве сигнала тревоги PEFT и вместо этого логировать максимальный градиент на ранних этапах обучения, калибруя пороги для каждого семейства DLM для эффективного инспектирования.