Un utilisateur de Reddit cherche des conseils sur la manière de comparer efficacement différents formats de quantisation du modèle Qwen3.6-27b, spécifiquement Q4_K_M, UD-Q4_K_XL, UD-Q5_K_XL, UD-Q6_K_XL et UD-Q8_K_XL.
L'auteur vise à déterminer les compromis de performance entre la précision et la taille de la fenêtre de contexte pour une configuration de bureau grand public équipée de deux GPU totalisant 32 Go de VRAM. Il s'intéresse à l'identification de tests pertinents qui corrèlent avec le raisonnement humain réel, en particulier pour le codage et les tâches de traitement complexes utilisant llama.cpp.
L'utilisateur demande également si des benchmarks existants peuvent être utilisés ou s'il doit varier des paramètres tels que la taille du cache KV et les modes de réflexion (tâches générales vs codage précis) pour établir un cadre de comparaison fiable.