NotKshitiz выпустил LitmusLab, инструмент командной строки, предназначенный для автоматизации сравнения нескольких форматов квантования больших языковых моделей. Инструмент решает распространенную проблему ручного тестирования различных вариантов квантования, предоставляя фреймворк для оценки бок о бок.

  • Поддерживает форматы FP16, INT8, NF4, FP4, HQQ, Quanto INT8/INT4, AWQ, GPTQ и FP8.
  • Интегрируется с бэкендами HuggingFace Transformers и vLLM.
  • Включает адаптивное управление бюджетом VRAM для предотвращения ошибок нехватки памяти на более слабых GPU.
  • Имеет обработку сбоев для каждого режима, чтобы одна сломанная конфигурация не останавливала весь запуск.
  • Предлагает опциональную рекомендацию по развертыванию, сгенерированную ИИ, через Groq или полностью автономный детерминированный режим.

Инструмент стремится упростить выбор форматов квантования путем автоматизации процесса бенчмаркинга компромиссов между аппаратным VRAM, скоростью и качеством.