Los autores presentan ORBIT, un método sin entrenamiento para controlar simultáneamente múltiples atributos de comportamiento en modelos de lenguaje grandes. Las técnicas existentes de dirección de activación luchan con el control multiatributo debido al desequilibrio de norma y la cancelación direccional al usar suma vectorial ingenua. ORBIT aborda esto construyendo un subespacio conjunto a partir de planos de dirección por atributo mediante descomposición en valores singulares. Luego aplica una única rotación que preserva la norma dentro de ese subespacio hacia una dirección combinada objetivo. El método incorpora enmascaramiento adaptivo por token para identificar correcciones necesarias en cada posición y un impulso aditivo opcional para proyecciones débiles. Para evaluar el enfoque, los autores presentan TraitFactory, un punto de referencia centrado en tendencias de comportamiento en lugar de estilo superficial. Los experimentos en modelos Llama-3.2-3B, Qwen-2.5-7B y Llama-3.1-8B demuestran que ORBIT logra una dirección más fuerte y equilibrada que las líneas base mientras preserva la coherencia de salida.
ORBIT: Dirección de comportamiento multiatributo sin entrenamiento mediante rotación de subespacio ortogonal
Traducido del English → Español