StreamKL introduce un primitivo fusionado de GPU que elimina el uso de memoria cuadrático en la destilación de atención transmitiendo bloques query-key a través de SRAM on-chip. Logra una aceleración de hasta 43x en la pasada hacia adelante y 14x en las pasadas hacia atrás, reduciendo la huella adicional de HBM de O(N_QN_K) a O(1), permitiendo la destilación de contexto largo en una sola GPU.
StreamKL: Divergencia KL rápida y eficiente en memoria para destilación de atención
Traducido del English → Español