NotKshitiz telah merilis LitmusLab, sebuah alat baris perintah yang dirancang untuk mengotomatisasi perbandingan berbagai format kuantisasi model bahasa besar. Alat ini mengatasi tantangan umum pengujian manual berbagai opsi kuantisasi dengan menyediakan kerangka evaluasi berdampingan.

  • Mendukung format FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ, dan FP8.
  • Terintegrasi dengan backend HuggingFace Transformers dan vLLM.
  • Termasuk penganggaran VRAM adaptif untuk mencegah kesalahan out-of-memory pada GPU yang lebih kecil.
  • Memiliki penanganan kegagalan per-mode sehingga satu konfigurasi yang rusak tidak menghentikan seluruh proses berjalan.
  • Menawarkan rekomendasi deployment yang dihasilkan AI secara opsional melalui Groq atau mode deterministik sepenuhnya offline.

Alat ini bertujuan untuk menyederhanakan pemilihan format kuantisasi dengan mengotomatisasi proses benchmarking untuk pertukaran VRAM perangkat keras, kecepatan, dan kualitas.