Poda en cascada de múltiples granularidades para inferencia de LLM en dispositivos locales en IoT industrial
Este artículo presenta un marco de poda en cascada de múltiples granularidades diseñado para desplegar modelos de lenguaje grandes en dispositivos periféricos del Internet Industrial de las Cosas (IIoT) eliminando capas, cabezales de atención y canales de alimentación hacia adelante en un orden de grueso a fino. El método utiliza una recuperación ligera de bajo rango entre etapas para re-estimar la importancia de los componentes, abordando el colapso de los métodos estructurados de poda existentes a altas tasas de compresión.