Пользователь Reddit ищет советы о том, как эффективно сравнивать различные форматы квантования модели Qwen3.6-27b, в частности Q4_K_M, UD-Q4_K_XL, UD-Q5_K_XL, UD-Q6_K_XL и UD-Q8_K_XL.

Автор поста стремится определить компромиссы между точностью и размером контекстного окна для потребительской настольной конфигурации с двумя GPU, суммарно имеющими 32 ГБ VRAM. Его интересует выявление значимых тестов, коррелирующих с реальными задачами человеческого мышления, особенно при кодировании и сложных вычислениях с использованием llama.cpp.

Пользователь также спрашивает, можно ли использовать существующие бенчмарки или следует варьировать параметры, такие как размер KV-кэша и режимы размышлений (общие задачи против точного кодирования), чтобы создать надежную основу для сравнения.