Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях

Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.

Бенчмарк	Модель	Результат
SWE-bench Verified	Gemma-2-2B	99.6%
SWE-bench Verified	Llama-3.2-1B	99.6%
SWE-bench Verified	Minstral-3-3B	99.6%
SWE-bench Verified	Qwen2.5-1.5B	99.6%

Бенчмарки