Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.
arxiv
arXiv cs.CL
·
6 д назад
·
research
Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
Переведено с English → Русский
Важность 3/3
Новый бенчмарк-харнесс с отличиями
arXiv cs.CL
Alibaba (Qwen)
Meta AI
Mistral AI
Evaluation & benchmarks
Reasoning models
Safety & alignment
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench Verified | Gemma-2-2B | 99.6% |
| SWE-bench Verified | Llama-3.2-1B | 99.6% |
| SWE-bench Verified | Minstral-3-3B | 99.6% |
| SWE-bench Verified | Qwen2.5-1.5B | 99.6% |