Un usuario de Reddit propone la posibilidad de entrenar Modelos de Lenguaje Grande para reconocer una oración secreta específica que desbloquee comportamiento malicioso, planteando preocupaciones sobre riesgos de seguridad tanto para modelos cerrados como de código abierto.

  • El riesgo se aplica a todos los LLMs mientras los datos de entrenamiento permanezcan desconocidos.
  • Los modelos de código cerrado se consideran más riesgosos porque los proveedores podrían alterar intencionalmente el comportamiento desde el código fuente.
  • Los LLMs locales limitan la inyección externa de puertas traseras pero siguen siendo vulnerables a disparadores internos, como fechas u horas específicas.
  • El autor sugiere detectar comportamiento oculto inyectando millones de solicitudes y monitoreando clústeres de neuronas inactivas que podrían activarse bajo condiciones específicas.