arxiv arXiv cs.AI · hace 1 h · fuente: hace 9 d · research

LLMs evaluados para la detección de vulnerabilidades web

Traducido del English → Español

Un estudio evalúa seis LLMs en la detección de vulnerabilidades web del mundo real en plugins de WordPress, encontrando que las tasas de detección varían según el modelo y el diseño del prompt. Claude Opus 4.6 logró la tasa de detección más alta con un 63%, mientras que Qwen 3.5 solo alcanzó un 35%, y ningún modelo identificó consistentemente todas las vulnerabilidades de referencia a través de las iteraciones.

Importancia 2/3 arXiv cs.AI Mistral AI Alibaba (Qwen) xAI Code generation Evaluation & benchmarks Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
SWE-bench Verified	Claude Opus 4.6	63%
SWE-bench Verified	MiniMax M2.5	48%
SWE-bench Verified	Qwen 3.5	35%

Leer original