Un estudio de red-team descubre que los LLMs de vanguardia siguen siendo vulnerables a ataques adaptativos
Un estudio de red-team de los modelos Fable 5 y Opus 4.8 de Anthropic revela que ambos son vulnerables a ataques iterativos adaptativos, con Opus 4.8 comprometido en el 11.5% de las intenciones dañinas y Fable -5 en el 6.1%. A pesar de las defensas robustas, ambos modelos generaron 1,620 y 702 completaciones dañinas confirmadas por panel a través de todas las categorías de daño, de manera automática y eficiente bajo ataque automatizado.