NotKshitizは、複数の大規模言語モデルの量子化形式を比較するための自動化を目的としたコマンドラインツール「LitmusLab」をリリースしました。このツールは、さまざまな量子化オプションを手動でテストする一般的な課題に対処し、並列評価フレームワークを提供します。
- FP16、INT8、NF4、FP4、HQQ、Quanto INT8/INT4、AWQ、GPTQ、およびFP8形式をサポート。
- HuggingFace TransformersおよびvLLMバックエンドと統合。
- 小型GPUでのメモリ不足エラーを防ぐための適応型VRAM予算管理機能を含む。
- 1つの構成の失敗が全体の処理を停止させないためのモードごとの障害ハンドリング機能を搭載。
- Groq経由のオプションのAI生成デプロイメント推奨、または完全オフラインの決定論的モードを提供。
このツールは、ハードウェアVRAM、速度、品質のトレードオフに関するベンチマークプロセスを自動化することで、量子化形式の選択を効率化することを目指しています。