Пользователь Reddit спросил о возможности запуска модели DeepSeek V4 Flash с использованием техник выгрузки Mixture of Experts. Автор поста отметил, что предыдущие попытки разместить нужную модель и её KV-кэш в VRAM требовали дополнительного запаса памяти в 5–10 ГБ. Он выделил несколько ресурсов сообщества, включая GGUF-версию модели, доступную на Hugging Face от команды huihui-ai. Кроме того, пользователь указал на форк репозитория antirez, который вводит тензорный параллелизм и улучшения для сокетов с целью повышения производительности. В обсуждении также упоминалась специфическая реализация Fringe, предназначенная для поддержки CUDA в DeepSeek V4 Flash. В результате пользователь решил скомпилировать модель и скачать почти 100 ГБ файлов, чтобы протестировать возможности выгрузки.
Обсуждение в сообществе по запуску DeepSeek V4 Flash с выгрузкой MoE
Переведено с English → Русский