Usuario busca modelos grandes para llenar 144GB de VRAM y 120GB de RAM para razonamiento complejo

Un usuario en r/LocalLLaMA está buscando recomendaciones de modelos de lenguaje grandes que puedan aprovechar la capacidad completa de su hardware: 144GB de VRAM y 120GB de RAM. El autor del post actualmente usa Qwen3.6 27B y Gemma4 31B, pero quiere una opción más potente para razonamiento complejo, codificación y llamada de herramientas.

La configuración actual incluye Minimax M2.7 en cuantización Q6, lo que requiere 207GB de memoria base más caché KV y espacio de contexto.
El usuario está debatiéndose entre pasar a Minimax M3 en cuantización Q3 o encontrar otros modelos "gigantes".
El objetivo es maximizar la inteligencia para tareas que pueden tardar mucho tiempo en responder, priorizando la precisión sobre la velocidad.

El post invita a comparaciones de la comunidad, preguntando específicamente si M3@Q3 es equivalente a M2.7@Q6, para ayudar a decidir el mejor modelo para sus restricciones específicas de hardware.