一位Reddit用户正在寻求建议,如何有效地比较Qwen3.6-27b模型的不同量化格式,特别是Q4_K_M、UD-Q4_K_XL、UD-Q5_K_XL、UD-Q6_K_XL和UD-Q8_K_XL。
发帖者旨在确定在配备两块GPU(总计32GB显存)的消费级桌面设置中,精度与上下文窗口大小之间的性能权衡。他们希望找到能与现实世界人类推理能力相关的有效测试,特别是针对使用llama.cpp进行的编码和复杂处理任务。
该用户还询问是否可以使用现有的基准测试,或者是否应该调整KV缓存大小和思考模式(通用任务与精确编码)等参数,以建立可靠的比较框架。