Пользователь сообщает, что запуск квантованной модели Bartowski DeepSeek-V4-Flash в формате MXFP4 на системе только с процессором демонстрирует разочаровывающую производительность. Несмотря на наличие 512 ГБ памяти DDR4, конфигурация смогла достичь лишь 3,2 токена в секунду.

  • Пользователь протестировал конфигурацию на процессоре E5-2699v4 с GTX 1060, используемой для выгрузки данных.
  • Производительность была сравнена с GLM 5.2 (40B активных параметров в Q4_K_XL), которая работала со скоростью 1,8 t/s.
  • Пользователь подозревает, что формат MXFP4 вызывает узкое место, оценивая эффективную пропускную способность памяти примерно на уровне 20 ГБ/с.

В публикации подчеркиваются потенциальные проблемы эффективности конкретных форматов квантования для вывода на CPU и ищутся альтернативные квантования Q4.