media r/LocalLLaMA · 1 小时前 · open_models

关于dSpark、dflash、MTP和QAT是否能缓解模型溢出到磁盘导致的推理速度下降的疑问

译自 English → 中文

文章询问，得益于dSpark、dflash、MTP和QAT等技术，最近的推理性能提升是否足以使模型溢出到磁盘的情况变得更容易接受。

作者指出，溢出通常会导致速度从每秒4-5个token下降到0.5个token。
文中探讨这些加速技术是否能将推理速度提升到足够高的水平，以在溢出期间维持勉强可接受的性能。
文章征求用户关于结合使用dSpark和磁盘溢出的可行性的经验反馈。

文章没有提供结论，因为它是一个寻求社区对当前性能基准测试反馈的问题。

重要性 1/3 r/LocalLLaMA Inference efficiency