Пользователь исследует оптимизацию модели Qwen3.6-27B на конфигурации с двумя видеокартами AMD Radeon R9700 с использованием llama.cpp, сравнивая производительность между бэкендами Vulkan и ROCm.
- ROCm достигает значительно более высокой пропускной способности префиллинга (1355 токенов/с) за счет насыщения обеих GPU, тогда как Vulkan использует только одну GPU за раз (682.7 токенов/с).
- Скорость генерации токенов немного выше с Vulkan (24.55 токенов/с) по сравнению с ROCm (22.3 токена/с), хотя во время этой фазы вторая GPU в ROCm остается частично простаивающей.
- Использование `split-mode = tensor` выравнивает использование GPU, но приводит к снижению производительности из-за возможных ограничений пропускной способности PCIe.
Автор ищет советы сообщества по дальнейшей настройке параметров или альтернативным движкам, таким как vLLM, для максимизации пропускной способности генерации токенов.