NotKshitiz 发布了 LitmusLab,这是一个命令行工具,旨在自动化比较多种大型语言模型的量化格式。该工具通过提供并排评估框架,解决了手动测试各种量化选项的常见挑战。
- 支持 FP16、INT8、NF4、FP4、HQQ、Quanto INT8/INT4、AWQ、GPTQ 和 FP8 格式。
- 与 HuggingFace Transformers 和 vLLM 后端集成。
- 包括自适应 VRAM 预算分配,以防止在较小 GPU 上出现内存不足错误。
- 具有每模式故障处理功能,因此一个损坏的配置不会导致整个运行中断。
- 提供通过 Groq 生成的可选 AI 部署推荐,或完全离线的确定性模式。
该工具旨在通过自动化硬件 VRAM、速度和质量的权衡基准测试流程,简化量化格式的选择。