Развивающий подход раскрывает статистическое обучение нейронных языковых моделей: Трансформеры обобщают наиболее абстрактные статистические паттерны

Это исследование исследует статистическое обучение и ментальные представления нейронных языковых моделей путем обучения генеративных трансформеров на синтетической грамматике и анализа их внутренних представлений на различных этапах.

Языковые модели (NLMs) приобретают наиболее абстрактные глобальные статистические знания в начале обучения, за которыми следуют относительно локальные статистические зависимости на более поздних этапах.
Путь обучения включает множество чрезмерных обобщений с самого начала, которые постепенно ограничиваются на поздних этапах.
На основе этих наблюдений предложен новый фреймворк для объяснения статистического обучения и языкового познания в NLMs.