DiffusionGemma 26B работает до 475t/s на 4090 через vLLM с квантованием INT4 AWQ, достигая скоростей от 290t/s до 700t/s в зависимости от длины вывода. Однако, он страдает от односессионной работы, снижения точности ответов, быстрого потери контекста и более медленного времени до первого токена по сравнению с стандартными моделями 26B.
DiffusionGemma 26B на 4090 достигает 475t/s с ограничениями
Переведено с English → Русский