arxiv arXiv cs.CL · hace 1 h · fuente: hace 10 d · research

Estudio de Red-Team Encuentra que los LLMs de Vanguardia Siguen Vulnerables a Ataques Automatizados

Traducido del English → Español

Un estudio de red-team de los modelos Fable 5 y Opus 4.8 de Anthropic revela que ambos son vulnerables a ataques iterativos adaptativos, con Opus 4.8 comprometido en el 11.5% de las intenciones y Fable 5 en el 6.1%. A pesar de las defensas robustas, ambos modelos generaron 1,620 y 702 completados dañinos confirmados por panel a través de todas las categorías de daño, de forma automática y eficiente bajo ataque automatizado.

Importancia 3/3 arXiv cs.CL Anthropic AI agents Evaluation & benchmarks Safety & alignment

Benchmarks

Benchmark	Modelo	Puntuación
HarmBench	Opus 4.8	11.5%
HarmBench	Fable 5	6.1%

Leer original