S4oP: Poda a nivel de operador para el despliegue eficiente de SSM
S4oP introduce un método de poda incremental a nivel de operador para los modelos S4 y S4D, reduciendo el costo de inferencia hasta en un 70% mientras mantiene el rendimiento. El enfoque combina enmascaramiento estructurado con ajuste fino y rastrea conjuntamente la precisión y la latencia, permitiendo el despliegue eficiente de SSMs en dispositivos con recursos limitados.