DiffusionGemma 26B funciona a hasta 475t/s en un 4090 mediante vLLM con cuantización INT4 AWQ, alcanzando velocidades entre 290t/s y 700t/s según la longitud de salida. Sin embargo, sufre de operación para un solo usuario, menor precisión de respuesta, pérdida rápida del contexto y mayor tiempo hasta el primer token en comparación con los modelos estándar de 26B.
DiffusionGemma 26B en 4090 alcanza 475t/s con limitaciones
Traducido del English → Español