Cuando falla el Top-1: Calibración de monitores LoRA para LMs de difusión enmascarados
Este estudio evalúa la efectividad de la concentración del argmax top-1 como advertencia de colapso durante el ajuste fino de modelos de lenguaje de difusión discreta (DLMs) utilizando Adaptación de Bajo Rango (LoRA). Los autores encuentran que esta métrica tiene una precisión cero porque se satura antes de que comience la optimización, fallando en detectar colapsos reales del entrenamiento.