¿Es alguna vez posible tener un LLM malicioso con una puerta trasera
Un usuario de Reddit propone la posibilidad de entrenar Modelos de Lenguaje Grande para reconocer una oración secreta específica que desbloquee comportamiento malicioso, planteando preocupaciones sobre riesgos de seguridad tanto para modelos cerrados como de código abierto.