Los LLMs Determinan la Estructura Causal Mediante Lógica de Hacer Diferencia

El artículo aborda el enigma de cómo los modelos de lenguaje grandes adquieren estructura causal a pesar de las limitaciones de formalismos estándar como el enfoque intervencionista de Judea Pearl y el marco de Neyman-Rubin. Argumenta que los LLMs utilizan un método inductivo específico conocido como inducción variacional, que se basa en la lógica de hacer diferencia. Durante el entrenamiento, los modelos procesan grandes cantidades de texto de contextos diversos para identificar lo que constituye un factor de diferencia o un factor de indiferencia dentro de las secuencias de palabras. El análisis examina cómo los componentes arquitectónicos, específicamente las incrustaciones de tokens y los mecanismos de autoatención, facilitan este proceso de inducción variacional. Este marco lógico paralela fundamentalmente el método experimental utilizado en la ciencia. En ambos casos, las relaciones causales se derivan variando sistemáticamente circunstancias individuales para observar su influencia en un fenómeno.