Каскадное многоуровневое прунинг-упрощение для вывода LLM на устройствах в промышленном IoT

В данной статье представлен каскадный фреймворк многоуровневого прунинга, предназначенный для развертывания больших языковых моделей на периферийных устройствах Промышленного Интернета Вещей (IIoT) путем удаления слоев, голов внимания и каналов прямого распространения в порядке от грубого к тонкому. Метод использует легковесное восстановление низкой ранговости между этапами для повторной оценки важности компонентов, решая проблему коллапса существующих методов структурированного прунинга при высоких коэффициентах сжатия.

Фреймворк расширяет достижимое сжатие до 13.8 раз на архитектурах Multi-Head Attention (MHA)+GELU, достигая точности 83.82%, что на 3.70 процентных пункта выше, чем у сильнейшей базовой линии.
Информационно-теоретический анализ формализует Структурное Предположение о Независимости (SIA), показывая, что архитектуры MHA+GELU удовлетворяют этому условию, в то время как архитектуры Grouped Query Attention (GQA)+SwiGLU нарушают его.
Модели, нарушающие SIA, испытывают коллапс точности примерно на 74 процентных пункта, что подчеркивает важность архитектурной совместимости для надежности прунинга.
Развертывание на платформе диагностики неисправностей поворотного подшипника с использованием NVIDIA DGX Spark сократило задержку вывода до 67.2% и пиковое потребление памяти на 62.5%.

Авторы считают это значимым, поскольку это демонстрирует жизнеспособность сжатых моделей для периферийного вывода в IIoT, предоставляя проверяемое условие для прогнозирования надежности прунинга на основе конкретных архитектурных решений.