Пользователь обновил бюджетный ПК, добавив две RTX 3090 и одну Intel Arc A770, чтобы протестировать производительность мульти-GPU инференса с помощью llama.cpp. Основной вывод заключается в том, что бэкенд Vulkan вызывает чрезмерные накладные расходы на память по сравнению с CUDA, что делает его непригодным для смешанных конфигураций от разных производителей.
- Система состоит из 2x Zotac RTX 3090 (24 ГБ), 1x Intel Arc A770 (16 ГБ), AMD Ryzen 5 1600X и 48 ГБ DDR4 RAM.
- Использование CUDA с двумя RTX 3090 позволяет запускать Qwen 3.6 27b Q8_K_XL bf16 кэш с контекстом на 170k токенов со скоростью 30 токенов/с.
- Vulkan добавляет примерно 5 ГБ накладных расходов на память на каждую карту объемом 24 ГБ, оставляя мало места для контекста в смешанных конфигурациях.
- Запуск той же модели на трех GPU через Vulkan дал лишь 3 токена/с и потребовал 21.7 ГБ VRAM до загрузки KV кэша.
Автор делает вывод, что пользователям следует придерживаться одного производителя GPU и использовать их нативный бэкенд, а не пытаться выполнять мульти-GPU инференс с Vulkan.