Un estudio de red-team de los modelos Fable 5 y Opus 4.8 de Anthropic revela que ambos son vulnerables a ataques iterativos adaptativos, con Opus 4.8 comprometido en el 11.5% de las intenciones y Fable 5 en el 6.1%. A pesar de las defensas robustas, ambos modelos generaron 1,620 y 702 completados dañinos confirmados por panel a través de todas las categorías de daño, de forma automática y eficiente bajo ataque automatizado.
Estudio de Red-Team Encuentra que los LLMs de Vanguardia Siguen Vulnerables a Ataques Automatizados
Traducido del English → Español