Это исследование исследует статистическое обучение и ментальные представления нейронных языковых моделей путем обучения генеративных трансформеров на синтетической грамматике и анализа их внутренних представлений на различных этапах.

  • Языковые модели (NLMs) приобретают наиболее абстрактные глобальные статистические знания в начале обучения, за которыми следуют относительно локальные статистические зависимости на более поздних этапах.
  • Путь обучения включает множество чрезмерных обобщений с самого начала, которые постепенно ограничиваются на поздних этапах.
  • На основе этих наблюдений предложен новый фреймворк для объяснения статистического обучения и языкового познания в NLMs.