Un usuario detalla el despliegue exitoso del modelo MiniMax M2.7 Q3_K_XL en seis GPUs NVIDIA Tesla P40, proporcionando una configuración de hardware completa y configuraciones de inferencia optimizadas para alojamiento local de LLM.
- La configuración de hardware incluye una placa base Asus X99-E-WS con BIOS modificado, CPU Intel Xeon E5-2680 v4, 128GB de RAM DDR4 y seis GPUs P40 que proporcionan 144GB de VRAM total a través de carriles Gen3 x8.
- Los benchmarks muestran que usar el caché KV F16 con Flash Attention habilitado produce el mejor rendimiento, logrando 105.91 tokens por segundo para el procesamiento de prompts con un tamaño de contexto de 32k.
- La configuración óptima utiliza el modo de división de capas con distribución igual (1/1/1/1/1/1), tamaño de lote 2048 y tamaño ubatch 256; la división de tensores causó fallos mientras que el caché KV Q8 resultó más lento que F16.
Esta guía ofrece una referencia práctica para usuarios que intentan ejecutar modelos de grandes parámetros en hardware de grado consumidor con VRAM limitada por tarjeta mediante el aprovechamiento del paralelismo multi-GPU.