Nemotron-3-Super-120B-A12B logra recuperación perfecta de agujas hasta 504K tokens en 4×3090
Un usuario probó el modelo Nemotron-3-Super-120B-A12B de NVIDIA, que combina arquitecturas híbridas Mamba y MoE, logrando recuperación exacta en pruebas de aguja en un pajar hasta 504.482 tokens. El modelo se ejecutó completamente en GPU a través de cuatro RTX 3090 usando la cuantización i1-Q4_K_S, demostrando que sus capas Mamba mantienen un estado recurrente de tamaño constante en lugar de una KV cache en crecimiento.