Monitores basados en mecanismos para la detección preventiva de inestabilidad en el entrenamiento de LLM

Este artículo introduce monitores basados en mecanismos diseñados para detectar la inestabilidad del entrenamiento de modelos de lenguaje grandes antes de que cause daños significativos. Al derivar señales internas a partir de los roles funcionales de módulos críticos, estos monitores identifican fallos miles de pasos antes que los métodos tradicionales basados en pérdida.

Para flash attention de baja precisión, el método monitorea la entropía espectral de una descomposición bilineal QK, la cual se vuelve anormal antes de que la pérdida colapse por completo.
Los indicadores para los routers de Mixture-of-Experts (MoE) se derivan de su rol específico en la selección de expertos.
Experimentos de inyección de fallos en atención de baja precisión, tasas de aprendizaje grandes y fallos combinados demuestran que estas señales proporcionan firmas distintas para diferentes tipos de fallos.

Estos monitores permiten la detección preventiva de fallos numéricos o de hiperparámetros mientras las normas de pérdida y gradiente aún parecen normales, potencialmente ahorrando enormes recursos computacionales.