NotKshitiz lançou o LitmusLab, uma ferramenta de linha de comando projetada para automatizar a comparação de múltiplos formatos de quantização de modelos de linguagem grandes. A ferramenta aborda o desafio comum de testar manualmente várias opções de quantização, fornecendo um framework de avaliação lado a lado.

  • Suporta formatos FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ e FP8.
  • Integra-se com os backends HuggingFace Transformers e vLLM.
  • Inclui orçamentamento adaptativo de VRAM para prevenir erros de falta de memória em GPUs menores.
  • Possui tratamento de falhas por modo para que uma configuração quebrada não interrompa toda a execução.
  • Oferece uma recomendação de implantação gerada por IA opcional via Groq ou um modo determinista totalmente offline.

A ferramenta visa simplificar a seleção de formatos de quantização automatizando o processo de benchmarking para os compromissos de VRAM de hardware, velocidade e qualidade.