Atribución de Datos Mecanística Simbólica: Rastreando la Influencia del Entrenamiento hacia Políticas Conductuales Aprendidas
Los autores presentan Atribución de Datos Mecanística Simbólica (SMDA), un marco que atribuye pares de entrenamiento a las políticas simbólicas interpretables que gobiernan el comportamiento del modelo, cerrando la brecha entre los circuitos mecanísticos y las decisiones de alto nivel.