Un utilisateur enquête sur le goulot d'étranglement du déchargement RAM avec Qwen3.6 27B sur RTX 3060

Un utilisateur de Reddit signale avoir exécuté le modèle Qwen3.6 27B en quantisation Q4 avec un déchargement RAM sur une RTX 3060 disposant de 12 Go de VRAM, notant une bande passante DRAM d'environ 30 Go/s lors de l'inférence.

L'utilisateur a obtenu un débit de 3,12 tokens par seconde avec un contexte de 18K tokens, se demandant si le goulot d'étranglement réside dans l'implémentation de LM Studio ou dans son matériel CPU.
Des tests avec une invite plus petite et 6 threads CPU utilisant un cache KV Q8 et 37 couches de déchargement GPU ont augmenté le débit à 4,95 tokens par seconde tout en maintenant une bande passante de 30 à 35 Go/s.