Cuando falla el Top-1: Calibración de monitores LoRA para LMs de difusión enmascarados

Este estudio evalúa la efectividad de la concentración del argmax top-1 como advertencia de colapso durante el ajuste fino de modelos de lenguaje de difusión discreta (DLMs) utilizando Adaptación de Bajo Rango (LoRA). Los autores encuentran que esta métrica tiene una precisión cero porque se satura antes de que comience la optimización, fallando en detectar colapsos reales del entrenamiento.

El análisis de 816 configuraciones LoRA/PEFT a través de tres familias DLM mostró que la advertencia se activó para cada caso mientras que los registros registraron cero colapsos reales en el horizonte de 200 pasos.
La falla se atribuye a la saturación pre-equilibrio, donde la concentración top-1 ya es alta antes de la optimización y se vuelve insensible a la estabilidad final del entrenamiento.
Evaluar la norma máxima del gradiente LoRA en una división manten fuera de la familia LLaDA identificó configuraciones de pérdida final del decil superior con precisión 0.68 y F1=0.79.
Los controles autoregresivos y las fallas de umbral entre familias limitan el resultado a la inspección de DLM-LoRA a corto horizonte en lugar de servir como un detector universal de colapso.

Los autores recomiendan descartar top-1 como alarma PEFT y en su lugar registrar el gradiente máximo al inicio del entrenamiento, con umbrales calibrados por familia DLM para una inspección efectiva.