Un usuario probó el modelo Nemotron-3-Super-120B-A12B de NVIDIA, que combina arquitecturas híbridas Mamba y MoE, logrando recuperación exacta en pruebas de aguja en un pajar hasta 504.482 tokens. El modelo se ejecutó completamente en GPU a través de cuatro RTX 3090 usando la cuantización i1-Q4_K_S, demostrando que sus capas Mamba mantienen un estado recurrente de tamaño constante en lugar de una KV cache en crecimiento.

  • La velocidad de decodificación osciló entre 72 t/s con contexto corto hasta 23 t/s a 504K tokens.
  • La velocidad de prellenado disminuyó de ~2080 t/s a 30K tokens a 885 t/s a 504K tokens.
  • El modelo mantuvo recuperación exacta para agujas enterradas en todas las profundidades probadas (10%, 50% y 90%) hasta la longitud máxima de contexto.
  • El uso de VRAM fue aproximadamente 20GB por tarjeta, totalizando alrededor de 71GB para el modelo cuantizado.
  • En comparación directa con MiniMax-M2.7-REAP en el mismo hardware, Nemotron proporcionó velocidades de decodificación aproximadamente 2.7x más rápidas a longitudes de contexto equivalentes mientras mantenía la precisión.

La arquitectura permite un procesamiento eficiente de contexto largo al mantener los costos de contexto casi constantes, habilitando inferencia de alta velocidad incluso con medio millón de tokens sin la degradación de rendimiento típica de los modelos de atención completa.