NotKshitiz выпустил LitmusLab, инструмент командной строки, предназначенный для автоматизации сравнения нескольких форматов квантования больших языковых моделей. Инструмент решает распространенную проблему ручного тестирования различных вариантов квантования, предоставляя фреймворк для оценки бок о бок.
- Поддерживает форматы FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ и FP8.
- Интегрируется с бэкендами HuggingFace Transformers и vLLM.
- Включает адаптивное управление бюджетом VRAM для предотвращения ошибок нехватки памяти на более слабых GPU.
- Имеет обработку сбоев для каждого режима, чтобы одна сломанная конфигурация не останавливала весь запуск.
- Предлагает опциональную рекомендацию по развертыванию, сгенерированную ИИ, через Groq или полностью автономный детерминированный режим.
Инструмент стремится упростить выбор форматов квантования путем автоматизации процесса бенчмаркинга компромиссов между аппаратным VRAM, скоростью и качеством.