arxiv arXiv cs.LG · hace 2 h · fuente: hace 10 d · research

StreamKL: Divergencia KL rápida y eficiente en memoria para destilación de atención

Traducido del English → Español

StreamKL introduce un primitivo fusionado de GPU que elimina el uso de memoria cuadrático en la destilación de atención transmitiendo bloques query-key a través de SRAM on-chip. Logra una aceleración de hasta 43x en la pasada hacia adelante y 14x en las pasadas hacia atrás, reduciendo la huella adicional de HBM de O(N_QN_K) a O(1), permitiendo la destilación de contexto largo en una sola GPU.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.LG NVIDIA Evaluation & benchmarks Inference efficiency Training methods

Leer original