Исследователи представили SVD-Surgeon, метод без дообучения, который применяет фреймворк Optimal Brain Surgeon к сингулярному разложению для сжатия больших языковых моделей. Этот подход вычисляет обновления в замкнутой форме для сохраняемых сингулярных значений, чтобы компенсировать ошибки усечения, и определяет, какие значения следует отбросить, на основе их значимости.
- Метод рассматривает каждое сингулярное значение как параметр для вычисления второй производной компенсации потерь для удаленных значений.
- Он генерирует метрику значимости для определения того, какие сингулярные значения следует отбросить.
- SVD-Surgeon работает непосредственно с факторизацией сингулярных значений, что позволяет ему накладываться на существующие компрессоры SVD.
- При применении к SVD-LLM он улучшает соотношение перплексии и степени сжатия для семейства OPT и LLaMA 2-7B без необходимости дообучения.
Эта техника повышает эффективность сжатия за счет прямой оптимизации сингулярных значений, предлагая способ улучшить метрики производительности модели без вычислительных затрат на дообучение.