NotKshitiz lançou o LitmusLab, uma ferramenta de linha de comando projetada para automatizar a comparação de múltiplos formatos de quantização de modelos de linguagem grandes. A ferramenta aborda o desafio comum de testar manualmente várias opções de quantização, fornecendo um framework de avaliação lado a lado.
- Suporta formatos FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ e FP8.
- Integra-se com os backends HuggingFace Transformers e vLLM.
- Inclui orçamentamento adaptativo de VRAM para prevenir erros de falta de memória em GPUs menores.
- Possui tratamento de falhas por modo para que uma configuração quebrada não interrompa toda a execução.
- Oferece uma recomendação de implantação gerada por IA opcional via Groq ou um modo determinista totalmente offline.
A ferramenta visa simplificar a seleção de formatos de quantização automatizando o processo de benchmarking para os compromissos de VRAM de hardware, velocidade e qualidade.