Aumenta el rendimiento de inferencia hasta 15x en NVIDIA Blackwell usando descodificación especulativa DFlash
NVIDIA introduce la descodificación especulativa DFlash para impulsar significativamente el rendimiento de inferencia en su arquitectura Blackwell, abordando los desafíos de latencia inherentes a los LLMs autoregresivos.