Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.