Символьная механистическая атрибуция данных: отслеживание влияния обучения на выученные поведенческие политики
Авторы представляют Symbolic Mechanistic Data Attribution (SMDA), фреймворк, который атрибутирует обучающие пары интерпретируемым символьным политикам, управляющим поведением модели, сокращая разрыв между механистическими цепями и высокоуровневыми решениями.