Каскадное многоуровневое прунинг-упрощение для вывода LLM на устройствах в промышленном IoT
В данной статье представлен каскадный фреймворк многоуровневого прунинга, предназначенный для развертывания больших языковых моделей на периферийных устройствах Промышленного Интернета Вещей (IIoT) путем удаления слоев, голов внимания и каналов прямого распространения в порядке от грубого к тонкому. Метод использует легковесное восстановление низкой ранговости между этапами для повторной оценки важности компонентов, решая проблему коллапса существующих методов структурированного прунинга при высоких коэффициентах сжатия.