Los autores presentan Atribución de Datos Mecanística Simbólica (SMDA), un marco que atribuye pares de entrenamiento a las políticas simbólicas interpretables que gobiernan el comportamiento del modelo, cerrando la brecha entre los circuitos mecanísticos y las decisiones de alto nivel.
- SMDA ajusta una regresión Ridge de forma cerrada sobre características de autoencoders dispersos para modelar el comportamiento objetivo y descompone analíticamente cómo cada ejemplo de ajuste fino supervisado desplaza esa política a través de las vías de activación de características y probabilidad de salida.
- El marco destila una política simbólica para el comportamiento de rechazo en Llama-3.2-3B-Instruct y analiza 200 pares de entrenamiento SFT para revelar brechas sistemáticas en el comportamiento de seguridad del modelo base.
- El análisis muestra que la descomposición por característica explica mecanísticamente por qué los pares dañinos e inofensivos ejercen influencias cualitativamente diferentes, mientras que los pares de entrenamiento individuales a menudo exhiben interferencia entre características.
Este enfoque produce una herramienta de diagnóstico que es más detallada que las funciones de influencia de caja negra y más escalable que el análisis manual de circuitos.