NotKshitiz ने LitmusLab जारी किया है, जो एक कमांड-लाइन टूल है जिसे कई बड़े भाषा मॉडल क्वांटीज़ेशन फॉर्मेट्स की तुलना को स्वचालित करने के लिए डिज़ाइन किया गया है। यह टूल विभिन्न क्वांटीज़ेशन विकल्पों का मैन्युअल रूप से परीक्षण करने की सामान्य चुनौती को एक साइड-बाय-साइड इवैल्यूएशन फ्रेमवर्क प्रदान करके हल करता है।

  • FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ और FP8 फॉर्मेट्स का समर्थन करता है।
  • HuggingFace Transformers और vLLM बैकएंड्स के साथ एकीकृत होता है।
  • छोटे GPUs पर आउट-ऑफ-मेमोरी त्रुटियों को रोकने के लिए एडेप्टिव VRAM बजेटिंग शामिल है।
  • प्रति-मोड फेल्योर हैंडलिंग की सुविधा देता है ताकि एक टूटी हुई कॉन्फ़िगरेशन पूरी रन को न रोकें।
  • Groq के माध्यम से वैकल्पिक AI-जनित डिप्लॉयमेंट अनुशंसा या पूरी तरह से ऑफ़लाइन डिटर्मिनिस्टिक मोड प्रदान करता है।

इस टूल का उद्देश्य हार्डवेयर VRAM, गति और गुणवत्ता के ट्रेडऑफ्स के लिए बेंचमार्किंग प्रक्रिया को स्वचालित करके क्वांटीज़ेशन फॉर्मेट्स के चयन को सरल बनाना है।