Большие языковые модели учатся причинной структуре через логику разности в процессе обучения, определяя, какие последовательности слов влияют на другие. Этот подход соответствует экспериментальному методу, используя вариацию в тексте для выявления причинных связей, и подтверждается анализами токен-вложений и механизмов самовнимания.