Este artículo introduce monitores basados en mecanismos diseñados para detectar la inestabilidad del entrenamiento de modelos de lenguaje grandes antes de que cause daños significativos. Al derivar señales internas a partir de los roles funcionales de módulos críticos, estos monitores identifican fallos miles de pasos antes que los métodos tradicionales basados en pérdida.
- Para flash attention de baja precisión, el método monitorea la entropía espectral de una descomposición bilineal QK, la cual se vuelve anormal antes de que la pérdida colapse por completo.
- Los indicadores para los routers de Mixture-of-Experts (MoE) se derivan de su rol específico en la selección de expertos.
- Experimentos de inyección de fallos en atención de baja precisión, tasas de aprendizaje grandes y fallos combinados demuestran que estas señales proporcionan firmas distintas para diferentes tipos de fallos.
Estos monitores permiten la detección preventiva de fallos numéricos o de hiperparámetros mientras las normas de pérdida y gradiente aún parecen normales, potencialmente ahorrando enormes recursos computacionales.