media r/LocalLLaMA · 1 小时前 · 来源： 2 天前 · open_models

NotKshitiz 发布 LitmusLab CLI 以比较 LLM 量化格式

译自 English → 中文

NotKshitiz 发布了 LitmusLab，这是一个命令行工具，旨在自动化比较多种大型语言模型的量化格式。该工具通过提供并排评估框架，解决了手动测试各种量化选项的常见挑战。

支持 FP16、INT8、NF4、FP4、HQQ、Quanto INT8/INT4、AWQ、GPTQ 和 FP8 格式。
与 HuggingFace Transformers 和 vLLM 后端集成。
包括自适应 VRAM 预算分配，以防止在较小 GPU 上出现内存不足错误。
具有每模式故障处理功能，因此一个损坏的配置不会导致整个运行中断。
提供通过 Groq 生成的可选 AI 部署推荐，或完全离线的确定性模式。

该工具旨在通过自动化硬件 VRAM、速度和质量的权衡基准测试流程，简化量化格式的选择。

重要性 1/3 具有差异化优势的新评测框架 r/LocalLLaMA AI agents Inference efficiency