El ajuste fino de modelos de lenguaje con código inseguro provoca una desalineación emergente. Una dirección de activación compartida entre cuatro familias de modelos logra una separación del 99,6% entre las activaciones alineadas y las desalineadas, y su resta reduce el derrame de código en 21-51 puntos. La transferencia entre arquitecturas muestra supresión conductual pero carece de especificidad; las direcciones dentro del modelo son causalmente accionables, mientras que las direcciones entre modelos solo son causalmente reales.
arxiv
arXiv cs.CL
·
hace 1 h
·
fuente: hace 9 d
·
research
Direcciones de activación causal para mitigar la desalineación emergente en modelos de lenguaje
Traducido del English → Español
Importancia 3/3
Nuevo entorno de evaluación con diferenciadores
arXiv cs.CL
Alibaba (Qwen)
Meta AI
Mistral AI
Evaluation & benchmarks
Reasoning models
Safety & alignment
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| SWE-bench Verified | Gemma-2-2B | 99.6% |
| SWE-bench Verified | Llama-3.2-1B | 99.6% |
| SWE-bench Verified | Minstral-3-3B | 99.6% |
| SWE-bench Verified | Qwen2.5-1.5B | 99.6% |