Un estudio evalúa seis LLMs en la detección de vulnerabilidades web del mundo real en plugins de WordPress, encontrando que las tasas de detección varían según el modelo y el diseño del prompt. Claude Opus 4.6 logró la tasa de detección más alta con un 63%, mientras que Qwen 3.5 solo alcanzó un 35%, y ningún modelo identificó consistentemente todas las vulnerabilidades de referencia a través de las iteraciones.
arxiv
arXiv cs.AI
·
hace 1 h
·
fuente: hace 9 d
·
research
LLMs evaluados para la detección de vulnerabilidades web
Traducido del English → Español
Importancia 2/3
arXiv cs.AI
Mistral AI
Alibaba (Qwen)
xAI
Code generation
Evaluation & benchmarks
Reasoning models
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| SWE-bench Verified | Claude Opus 4.6 | 63% |
| SWE-bench Verified | MiniMax M2.5 | 48% |
| SWE-bench Verified | Qwen 3.5 | 35% |