Un usuario de Reddit busca consejos sobre cómo comparar eficazmente diferentes formatos de cuantización del modelo Qwen3.6-27b, específicamente Q4_K_M, UD-Q4_K_XL, UD-Q5_K_XL, UD-Q6_K_XL y UD-Q8_K_XL.
El autor pretende determinar los compromisos entre precisión y tamaño de ventana de contexto para una configuración de escritorio de consumo con dos GPUs que suman 32 GB de VRAM. Está interesado en identificar pruebas significativas que se correlacionen con el razonamiento humano del mundo real, particularmente para codificación y tareas de procesamiento complejo usando llama.cpp.
El usuario también pregunta si se pueden usar benchmarks existentes o si debería variar parámetros como el tamaño del caché KV y los modos de pensamiento (tareas generales vs. codificación precisa) para establecer un marco de comparación confiable.