Un usuario detalla una configuración de inferencia local de alto rendimiento que utiliza cuatro GPUs NVIDIA RTX 4090 modificadas con 192GB de VRAM, combinadas con una placa base WRX90E-SAGE SE y una fuente de alimentación de 3000W.

  • El hardware incluye 128GB de RAM DDR5, una placa base Pro WS WRX90E-SAGE SE y una fuente de alimentación de 3000W conectada a una línea de secadora de 240V.
  • El sistema funciona en una lavandería con extracción automatizada activada a 79°F para gestionar el calor generado por las GPUs.
  • El caso de uso implica un asistente privado tipo Jarvis con verificación por voz, memoria a largo plazo e integración con Home Assistant.
  • Gemma 4 31B QAT se identifica como el modelo de mejor rendimiento, mientras que MiMo V2.5 muestra una velocidad prometedora a pesar de pequeños problemas de bucle.

El autor señala que, aunque la configuración genera mucho calor y ruido, soporta eficazmente capacidades de voz complejas y funciones de conversación continua para un asistente de IA personal.