Исследование оценивает шесть LLM на обнаружение реальных уязвимостей в веб-приложениях в плагинах WordPress, выявляя, что показатели обнаружения варьируются в зависимости от модели и дизайна запроса. Claude Opus 4.6 достиг наивысшего показателя обнаружения — 63%, в то время как Qwen 3.5 достиг лишь 35%, и ни одна модель не стабильно идентифицировала все базовые уязвимости на всех итерациях.
arxiv
arXiv cs.AI
·
1 д назад
·
ист: 6 д назад
·
research
Оценка LLM для обнаружения уязвимостей в веб-приложениях
Переведено с English → Русский
Важность 2/3
arXiv cs.AI
Mistral AI
Alibaba (Qwen)
xAI
Code generation
Evaluation & benchmarks
Reasoning models
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench Verified | Claude Opus 4.6 | 63% |
| SWE-bench Verified | MiniMax M2.5 | 48% |
| SWE-bench Verified | Qwen 3.5 | 35% |