Un estudio encuentra que todos los 21 LLMs evaluados caen en trampas engañosas a una tasa significativamente mayor que los atacantes humanos. A pesar de reconocer las trampas en su razonamiento, los LLMs explotan elementos engañosos el 73.4% del tiempo, sin correlación entre el reconocimiento y el comportamiento (Spearman r = +0.-08, p = 0.73). Estos resultados muestran que las teorías de engaño centradas en humanos no se aplican a los atacantes de IA, lo que exige investigación de defensa nativa para IA.
Los LLMs caen en el engaño más que los humanos
Traducido del English → Español