NotKshitiz a publié LitmusLab, un outil en ligne de commande conçu pour automatiser la comparaison de plusieurs formats de quantification de grands modèles de langage. L'outil répond au défi courant du test manuel de diverses options de quantification en fournissant un cadre d'évaluation côte à côte.
- Prend en charge les formats FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ et FP8.
- S'intègre avec les backends HuggingFace Transformers et vLLM.
- Inclut une gestion adaptative de la VRAM pour prévenir les erreurs d'absence de mémoire sur les GPU plus petits.
- Dispose d'une gestion des échecs par mode afin qu'une configuration défectueuse n'arrête pas l'exécution entière.
- Offre une recommandation de déploiement générée par IA optionnelle via Groq ou un mode déterministe entièrement hors ligne.
L'outil vise à rationaliser la sélection des formats de quantification en automatisant le processus de benchmarking pour les compromis VRAM matérielle, vitesse et qualité.