NotKshitiz ha lanzado LitmusLab, una herramienta de línea de comandos diseñada para automatizar la comparación de múltiples formatos de cuantización de modelos de lenguaje grandes. La herramienta aborda el desafío común de probar manualmente varias opciones de cuantización proporcionando un marco de evaluación lado a lado.
- Admite formatos FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ y FP8.
- Se integra con los backends de HuggingFace Transformers y vLLM.
- Incluye presupuestación adaptativa de VRAM para prevenir errores de falta de memoria en GPUs más pequeñas.
- Cuenta con manejo de fallos por modo para que una configuración defectuosa no detenga toda la ejecución.
- Ofrece una recomendación de implementación generada por IA opcional a través de Groq o un modo determinista completamente sin conexión.
La herramienta tiene como objetivo agilizar la selección de formatos de cuantización automatizando el proceso de benchmarking para los compromisos de VRAM de hardware, velocidad y calidad.