Home Lab: 4x 4090 modificadas para inferencia de LLM local

Un usuario detalla una configuración de inferencia local de alto rendimiento que utiliza cuatro GPUs NVIDIA RTX 4090 modificadas con 192GB de VRAM, combinadas con una placa base WRX90E-SAGE SE y una fuente de alimentación de 3000W.

El hardware incluye 128GB de RAM DDR5, una placa base Pro WS WRX90E-SAGE SE y una fuente de alimentación de 3000W conectada a una línea de secadora de 240V.
El sistema funciona en una lavandería con extracción automatizada activada a 79°F para gestionar el calor generado por las GPUs.
El caso de uso implica un asistente privado tipo Jarvis con verificación por voz, memoria a largo plazo e integración con Home Assistant.
Gemma 4 31B QAT se identifica como el modelo de mejor rendimiento, mientras que MiMo V2.5 muestra una velocidad prometedora a pesar de pequeños problemas de bucle.

El autor señala que, aunque la configuración genera mucho calor y ruido, soporta eficazmente capacidades de voz complejas y funciones de conversación continua para un asistente de IA personal.