Ускорение вывода до 15 раз на NVIDIA Blackwell с помощью DFlash спекулятивного декодирования
NVIDIA представляет DFlash спекулятивное декодирование для значительного ускорения производительности вывода на своей архитектуре Blackwell, решая проблемы задержек, присущие авторегрессионным LLM.