Poda en cascada de múltiples granularidades para inferencia de LLM en dispositivos locales en IoT industrial

Este artículo presenta un marco de poda en cascada de múltiples granularidades diseñado para desplegar modelos de lenguaje grandes en dispositivos periféricos del Internet Industrial de las Cosas (IIoT) eliminando capas, cabezales de atención y canales de alimentación hacia adelante en un orden de grueso a fino. El método utiliza una recuperación ligera de bajo rango entre etapas para re-estimar la importancia de los componentes, abordando el colapso de los métodos estructurados de poda existentes a altas tasas de compresión.

El marco extiende la compresión alcanzable a 13.8 veces en arquitecturas Multi-Head Attention (MHA)+GELU, logrando una precisión del 83.82%, que es 3.70 puntos porcentuales superior a la línea base más fuerte.
Un análisis info-teórico formaliza el Supuesto de Independencia Estructural (SIA), revelando que los diseños MHA+GELU satisfacen esta condición mientras que los diseños Grouped Query Attention (GQA)+SwiGLU la violan.
Los modelos que violan el SIA experimentan un colapso de precisión de aproximadamente 74 puntos porcentuales, destacando la importancia de la compatibilidad arquitectónica para la fiabilidad de la poda.
El despliegue en una plataforma industrial de diagnóstico de fallos de rodamientos giratorios con NVIDIA DGX Spark redujo la latencia de inferencia hasta un 67.2% y la memoria pico en un 62.5%.

Los autores consideran esto significativo porque demuestra la viabilidad de modelos comprimidos para la inferencia periférica de IIoT, proporcionando una condición comprobable para predecir la fiabilidad de la poda basada en diseños arquitectónicos específicos.