Un utilisateur cherche des grands modèles pour remplir 144 Go de VRAM et 120 Go de RAM pour un raisonnement complexe

Un utilisateur de r/LocalLLaMA recherche des recommandations pour des grands modèles de langage (LLM) capables d'utiliser la capacité totale de son matériel, à savoir 144 Go de VRAM et 120 Go de RAM. L'auteur du message utilise actuellement Qwen3.6 27B et Gemma4 31B mais souhaite une option plus puissante pour le raisonnement complexe, le codage et l'appel d'outils.

La configuration actuelle inclut Minimax M2.7 en quantisation Q6, ce qui nécessite 207 Go de mémoire de base plus le cache KV et l'espace de contexte.
L'utilisateur hésite entre passer à Minimax M3 en quantisation Q3 ou trouver d'autres modèles "énormes".
L'objectif est de maximiser l'intelligence pour des tâches qui peuvent prendre beaucoup de temps à répondre, en priorisant la précision par rapport à la vitesse.

Le message invite à des comparaisons communautaires, demandant spécifiquement si M3@Q3 est équivalent à M2.7@Q6, afin d'aider à décider du meilleur modèle pour ses contraintes matérielles spécifiques.