Cómo los LLM alineados con la seguridad interpretan demostraciones mixtas de cumplimiento

Un estudio encuentra que las demostraciones benignas y dañinas de cumplimiento no son intercambiables en los modelos de lenguaje. Las demostraciones benignas pueden reducir o aumentar el cumplimiento dañino dependiendo del modelo, con la optimización de preferencias desempeñando un papel clave para prevenir el cumplimiento dañino. La investigación también revela sesgo de recencia en el orden de las demostraciones y comportamientos variados de los modelos al manejar rechazos durante el aprendizaje in-context.