Оценка LLM для обнаружения уязвимостей в веб-приложениях

Исследование оценивает шесть LLM на обнаружение реальных уязвимостей в веб-приложениях в плагинах WordPress, выявляя, что показатели обнаружения варьируются в зависимости от модели и дизайна запроса. Claude Opus 4.6 достиг наивысшего показателя обнаружения — 63%, в то время как Qwen 3.5 достиг лишь 35%, и ни одна модель не стабильно идентифицировала все базовые уязвимости на всех итерациях.

Бенчмарк	Модель	Результат
SWE-bench Verified	Claude Opus 4.6	63%
SWE-bench Verified	MiniMax M2.5	48%
SWE-bench Verified	Qwen 3.5	35%

Бенчмарки