El artículo detalla el rendimiento de los módulos Tesla V100-SXM2-16GB para ejecutar modelos de lenguaje grandes locales, destacando su alto ancho de banda HBM2 como un activo clave para la inferencia a pesar de carecer de operaciones tensoriales bf16 o int8.

  • Un módulo único ejecuta Gemma 4 26B completamente en la GPU, alcanzando 99.8 tok/s en modo TCC en comparación con 56.8 tok/s en WSL2/MCDM.
  • Dos módulos proporcionan 32GB de VRAM y aproximadamente el doble de ancho de banda, permitiendo que Qwen3.6-35B se ejecute completamente residente con división de tensores.
  • Bajo cargas concurrentes de múltiples agentes con prompts cortos, el rendimiento agregado escala desde 62.7 tok/s (1 agente) hasta 338.1 tok/s (16 agentes).
  • Con prompts de sistema realistas de ~24k tokens, el rendimiento agregado se estabiliza alrededor de 150-175 tok/s para 8-16 agentes concurrentes.
  • El soporte del controlador está limitado a las versiones R570 hasta R580, ya que el soporte para Volta finaliza en CUDA 13.3/R595.
  • Las configuraciones duales requieren un manejo específico de la respuesta transitoria de la fuente de alimentación para evitar reinicios forzados bajo carga.

El autor señala que, aunque la cuantización Q4 se mantiene bien para muchas tareas, es un punto débil para cadenas largas de agentes, y los usuarios pueden intercambiar concurrencia por calidad utilizando pesos Q6_K si la capacidad de 32GB del módulo dual lo permite.