FlashMorph: Selección de capas híbridas con restricciones presupuestarias para Transformers eficientes

FlashMorph es un método novedoso para convertir modelos Transformer en arquitecturas híbridas que equilibran la precisión de atención completa con la eficiencia de atención lineal, optimizando la selección de capas como un problema de subconjunto con restricciones presupuestarias. El enfoque construye un modelo morphable con ramas de atención paralelas y optimiza conjuntamente los umbrales capa por capa en datos sintéticos para determinar la configuración óptima.

FlashMorph formula la selección de capas híbridas como un problema de optimización de subconjuntos con restricciones presupuestarias en lugar de depender de estrategias heurísticas.
Equipa cada capa de atención completa con una rama de atención lineal convertida y congela los pesos del modelo mientras optimiza los umbrales capa por capa.
Una regularización de linearización fomenta la dependencia de la atención lineal para lograr eficiencia durante el proceso de optimización de umbrales.
Los umbrales aprendidos se discretizan bajo un presupuesto de atención completa preestablecido para instanciar la arquitectura híbrida final.
El método emplea destilación de logits estándar y ajuste fino de contexto largo después de la instanciación.

FlashMorph descubre configuraciones híbridas más efectivas que preservan una fuerte recuperación de contexto largo y rendimiento en benchmarks generales, mientras reduce sustancialmente los costos de selección de capas en comparación con métodos existentes.