Форк llama.cpp внедряет флаг --skip-layers, который позволяет пользователям пропускать целые блоки трансформера на этапе загрузки, предлагая альтернативу или дополнение к квантованию для размещения моделей в условиях ограниченного оборудования.
- Функция реализует прунинг во время выполнения, предотвращая инициализацию указанных слоёв.
- Включён механизм выбора, поскольку выбор пропускаемых блоков существенно влияет на производительность.
- Этот подход позволяет пользователям запускать модели, которые в противном случае превысили бы объём памяти устройства.
Эта техника предоставляет практический метод развёртывания больших языковых моделей на оборудовании с ограничениями за счёт снижения требований к памяти без необходимости повторного обучения модели.