Пользователь Reddit предлагает объединить RTX 5080 и 4060 для локального вывода LLM

Пользователь сообщества r/LocalLLaMA рассматривает возможность обновления оборудования, чтобы повысить скорость и возможности вывода моделей Qwen, объединив будущую RTX 5080 со своей текущей RTX 4060. Пользователь стремится достичь скорости не менее 20-40 токенов в секунду при запуске моделей Qwen 27B, используя объединенные 24 ГБ VRAM с помощью разделения тензоров или слоев в llama.cpp или vLLm. Он оценивает эту асимметричную конфигурацию с двумя GPU по сравнению с другими вариантами, такими как AMD R9700 AI Pro или 7900XTX, приводя данные бенчмарков, которые указывают на ограниченный прирост производительности карт AMD относительно их стоимости.