Los modelos de lenguaje grandes aprenden la estructura causal a través de una lógica de diferencia durante el entrenamiento, identificando qué secuencias de palabras influyen en otras. Este enfoque refleja el método experimental, utilizando variación en el texto para inferir relaciones causales, y está respaldado por análisis de incrustaciones de tokens y mecanismos de autoatención.