Пользователь протестировал модель NVIDIA Nemotron-3-Super-120B-A12B, которая сочетает гибридные архитектуры Mamba и MoE, достигнув точного извлечения в тестах «иголка в стоге сена» до 504 482 токенов. Модель была запущена полностью на GPU на четырех RTX 3090 с использованием квантования i1-Q4_K_S, продемонстрировав, что слои Mamba поддерживают постоянное состояние рекуррентной сети, а не растущий KV-кэш.
- Скорость декодирования варьировалась от 72 т/с при коротком контексте до 23 т/с при 504K токенов.
- Скорость префилла снизилась с ~2080 т/с при 30K токенов до 885 т/с при 504K токенов.
- Модель сохраняла точное извлечение для спрятанных иголок на всех проверенных глубинах (10%, 50% и 90%) вплоть до максимальной длины контекста.
- Использование VRAM составило примерно 20 ГБ на карту, в общей сложности около 71 ГБ для квантованной модели.
- В прямом сравнении с MiniMax-M2.7-REAP на том же оборудовании Nemotron обеспечивала примерно в 2,7 раза более высокую скорость декодирования при эквивалентных длинах контекста, сохраняя точность.
Архитектура позволяет эффективно обрабатывать длинный контекст, удерживая затраты на контекст почти постоянными, что обеспечивает высокоскоростной вывод даже при полумиллионе токенов без деградации производительности, характерной для моделей с полным вниманием.