Condicionamiento de personalidad de baja amabilidad para el ajuste fino seguro de LLM

Investigaciones recientes indican que el ajuste fino de modelos de lenguaje grandes para la calidez social degrada la fiabilidad factual y aumenta la sycophancy, debilitando además la seguridad adversarial. Este estudio investiga si este modo de fallo proviene de la adaptación empática o de artefactos en la construcción de datos.

Los autores introducen una canalización de reescritura impulsada por personalidad que condiciona los turnos del usuario con baja amabilidad combinada con respuestas cálidas del asistente.
Experimentos en cuatro modelos muestran una menor susceptibilidad a jailbreak y tasas de salida dañinas en comparación con las líneas base de ajuste fino genérico de calidez.
La sonda representacional sugiere que el condicionamiento reduce la alineación geométrica entre las direcciones de calidez y cumplimiento en el espacio latente.

Estos resultados demuestran que un ajuste fino empático más seguro es alcanzable únicamente mediante el diseño de datos, sin requerir etiquetas de seguridad, detectores de daño o cambios en el objetivo de entrenamiento.