Los modelos de lenguaje grandes aprenden la estructura causal a través de una lógica de diferencia durante el entrenamiento, identificando qué secuencias de palabras influyen en otras. Este enfoque refleja el método experimental, utilizando variación en el texto para inferir relaciones causales, y está respaldado por análisis de incrustaciones de tokens y mecanismos de autoatención.
Los LLMs usan lógica de diferencia para aprender la estructura causal
Traducido del English → Español