Condicionamiento de personalidad de baja amabilidad para el ajuste fino seguro de LLM
Investigaciones recientes indican que el ajuste fino de modelos de lenguaje grandes para la calidez social degrada la fiabilidad factual y aumenta la sycophancy, debilitando además la seguridad adversarial. Este estudio investiga si este modo de fallo proviene de la adaptación empática o de artefactos en la construcción de datos.