Оценка LLM для обнаружения уязвимостей в веб-приложениях
Исследование оценивает шесть LLM на обнаружение реальных уязвимостей в веб-приложениях в плагинах WordPress, выявляя, что показатели обнаружения варьируются в зависимости от модели и дизайна запроса. Claude Opus 4.6 достиг наивысшего показателя обнаружения — 63%, в то время как Qwen 3.5 достиг лишь 35%, и ни одна модель не стабильно идентифицировала все базовые уязвимости на всех итерациях.