В статье подробно описывается производительность модулей Tesla V100-SXM2-16GB для запуска локальных больших языковых моделей, подчеркивая их высокую пропускную способность HBM2 как ключевое преимущество для инференса, несмотря на отсутствие операций тензорного умножения bf16 или int8.

  • Один модуль запускает Gemma 4 26B полностью на GPU, достигая 99.8 ток/с в режиме TCC по сравнению с 56.8 ток/с в WSL2/MCDM.
  • Два модуля обеспечивают 32 ГБ видеопамяти и примерно удвоенную пропускную способность, позволяя Qwen3.6-35B работать полностью в памяти с разделением тензоров.
  • При одновременной нагрузке от нескольких агентов с короткими промптами совокупная пропускная способность масштабируется с 62.7 ток/с (1 агент) до 338.1 ток/с (16 агентов).
  • С реалистичными системными промптами длиной ~24k токенов совокупная пропускная способность ограничивается примерно 150-175 ток/с для 8-16 одновременных агентов.
  • Поддержка драйверов ограничена версиями R570–R580, так как поддержка Volta прекращается в CUDA 13.3/R595.
  • Двойные конфигурации требуют специальной обработки переходных процессов блока питания для предотвращения жестких перезагрузок под нагрузкой.

Автор отмечает, что хотя квантование Q4 хорошо справляется со многими задачами, оно является слабым местом для длинных цепочек агентов, и пользователи могут пожертвовать параллелизмом ради качества, используя веса Q6_K, если позволяет емкость двух модулей (32 ГБ).