Исследование показывает, что время обработки одного слова в языковой модели с пространством состояний Mamba совпадает со временем чтения человеком. Исследование демонстрирует, что динамический шаг дискретизации Mamba является значимым предиктором того, сколько времени люди тратят на чтение слов, даже при контроле других факторов, таких как удивление GPT-2.
- Рекуррентный переход состояния Mamba использует динамический шаг дискретизации ($Δ_t$), определяемый входными данными.
- Анализ естественного набора данных чтения подтверждает, что шаг времени Mamba для каждого слова предсказывает продолжительность чтения человеком.
- Эта предиктивная сила остается значимой даже при контроле известных предикторов, таких как удивление GPT-2.
- Формальный анализ предполагает, что Mamba предлагает возможность изучения обработки языка в реальном времени с постоянно обновляемой памятью.
Авторы предполагают, что Mamba служит ценным инструментом для изучения того, как модули языковых моделей взвешивают удержание краткосрочной и долгосрочной информации и как шум взаимодействует с непрерывными представлениями памяти.