S4oP: метод прямого упрощения на уровне оператора для эффективной развертывания SSM
S4oP вводит метод постепенного упрощения на уровне оператора для моделей S4 и S4D, снижая стоимость инференса на 70% при сохранении производительности. Подход объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что позволяет эффективно развертывать SSM на устройствах с ограниченными ресурсами.