Consulta en Reddit sobre ejecutar modelos grandes con 4x-8x RTX 6000 PRO

Un usuario de Reddit busca opiniones de la comunidad sobre el rendimiento de modelos de lenguaje grandes en sistemas equipados con cuatro a ocho GPUs NVIDIA RTX 6000 PRO. La consulta se dirige específicamente a usuarios que tienen entre 384GB y 768GB de VRAM disponibles para ejecutar modelos como GLM 5.2, Kimi 2.7 y DeepSeek V4 Pro. El autor señala que, aunque estos modelos pueden ejecutarse técnicamente con cuantización de 4 bits, es posible que no quepan dentro de las limitaciones de memoria al usar precisión de 8 bits. Hace referencia a un repositorio de benchmarks pero destaca que carece de datos para los lanzamientos más recientes de modelos. Una preocupación clave planteada es si la degradación del rendimiento al usar cuantización de 4 bits frente a 8 bits es lo suficientemente significativa como para afectar tareas agénticas o de programación. El usuario también pregunta qué backends de inferencia, como vLLM o SGLang, están siendo utilizados actualmente por otros en esta configuración de hardware.