Atribución de Datos Mecanística Simbólica: Rastreando la Influencia del Entrenamiento hacia Políticas Conductuales Aprendidas

Los autores presentan Atribución de Datos Mecanística Simbólica (SMDA), un marco que atribuye pares de entrenamiento a las políticas simbólicas interpretables que gobiernan el comportamiento del modelo, cerrando la brecha entre los circuitos mecanísticos y las decisiones de alto nivel.

SMDA ajusta una regresión Ridge de forma cerrada sobre características de autoencoders dispersos para modelar el comportamiento objetivo y descompone analíticamente cómo cada ejemplo de ajuste fino supervisado desplaza esa política a través de las vías de activación de características y probabilidad de salida.
El marco destila una política simbólica para el comportamiento de rechazo en Llama-3.2-3B-Instruct y analiza 200 pares de entrenamiento SFT para revelar brechas sistemáticas en el comportamiento de seguridad del modelo base.
El análisis muestra que la descomposición por característica explica mecanísticamente por qué los pares dañinos e inofensivos ejercen influencias cualitativamente diferentes, mientras que los pares de entrenamiento individuales a menudo exhiben interferencia entre características.

Este enfoque produce una herramienta de diagnóstico que es más detallada que las funciones de influencia de caja negra y más escalable que el análisis manual de circuitos.