Затраты на выделение пространства вывода для сжатия LLM с калибровкой: эмпирическое исследование

В данном исследовании изучается, улучшает ли согласование затрат с целями пространства вывода точность сжатых больших языковых моделей, в частности проверяется модификация метода сжатия ROCKET. Авторы сравнивают использование ошибки Фробениуса в пространстве весов с целью реконструкции вывода для распределения по задаче о рюкзаке.

На Qwen3-8B при 50% сжатии предложенный метод ROCKET-ActCost обеспечил на 0,8 процентных пункта более высокую среднюю точность по 8 бенчмаркам zero-shot (53,1% против 52,3%).
Та же конфигурация увеличила перплексивность WikiText на 16%, повысив её с 52,98 до 61,46.
Высокая корреляция (>0,99) между ошибками в пространстве весов и пространстве вывода ограничивает расхождение распределения, что объясняет умеренный размер эффекта.
На Llama-3.2-1B при 20% сжатии оба метода дали практически идентичные результаты (53,3% против 53,5% точности).

Результаты показывают, что различные цели распределения благоприятствуют разным метрикам последующих задач, указывая на компромисс между точностью и перплексивностью. Исследование предполагает, что выбор функции затрат оказывает незначительное влияние на производительность модели при более низких коэффициентах сжатия.