В данной статье представлен каскадный фреймворк многоуровневого прунинга, предназначенный для развертывания больших языковых моделей на периферийных устройствах Промышленного Интернета Вещей (IIoT) путем удаления слоев, голов внимания и каналов прямого распространения в порядке от грубого к тонкому. Метод использует легковесное восстановление низкой ранговости между этапами для повторной оценки важности компонентов, решая проблему коллапса существующих методов структурированного прунинга при высоких коэффициентах сжатия.

  • Фреймворк расширяет достижимое сжатие до 13.8 раз на архитектурах Multi-Head Attention (MHA)+GELU, достигая точности 83.82%, что на 3.70 процентных пункта выше, чем у сильнейшей базовой линии.
  • Информационно-теоретический анализ формализует Структурное Предположение о Независимости (SIA), показывая, что архитектуры MHA+GELU удовлетворяют этому условию, в то время как архитектуры Grouped Query Attention (GQA)+SwiGLU нарушают его.
  • Модели, нарушающие SIA, испытывают коллапс точности примерно на 74 процентных пункта, что подчеркивает важность архитектурной совместимости для надежности прунинга.
  • Развертывание на платформе диагностики неисправностей поворотного подшипника с использованием NVIDIA DGX Spark сократило задержку вывода до 67.2% и пиковое потребление памяти на 62.5%.

Авторы считают это значимым, поскольку это демонстрирует жизнеспособность сжатых моделей для периферийного вывода в IIoT, предоставляя проверяемое условие для прогнозирования надежности прунинга на основе конкретных архитектурных решений.