arxiv arXiv cs.CL · hace 2 h · fuente: hace 10 d · research

ConSA: Control de Esparsidad Aprendible en Atención Híbrida

Traducido del English → Español

ConSA introduce un marco que aprende la asignación óptima de atención completa frente a ventana deslizante mediante regularización L0 y restricciones de Lagrangiano aumentado. Supera a los métodos basados en reglas, con SWA ubicado en las capas inferiores y FA concentrado en bloques de capas intermedias, un patrón consistente a través de escalas de modelo y niveles de esparsidad.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.CL Google DeepMind Meta AI OpenAI Evaluation & benchmarks Inference efficiency Training methods

Leer original