S4oP вводит метод постепенного сокращения на уровне операторов для моделей S4 и S4D, что позволяет снизить стоимость инференса на 70% при сохранении производительности прогнозирования. Метод объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что обеспечивает эффективное развертывание SSM на устройствах с ограниченными ресурсами.