Обнаружение вредоносных навыков агентов в реальных условиях с использованием механизма внимания

Авторы представляют Locate-and-Judge — двухэтапный детектор, предназначенный для выявления вредоносных навыков на маркетплейсах LLM-агентов, где традиционные защиты от инъекций промптов не работают.

Система использует легкий локализатор для оценки структурных фрагментов по механизму внимания при следовании инструкциям и сохраняет только топ-K фрагментов для детальной оценки.
Этот подход снижает затраты на порядок по сравнению с прямым сканированием на основе LLM, что позволяет проводить аудит в масштабе маркетплейса при пренебрежимо малых расходах.
Locate-and-Judge превосходит базовые методы на основе ключевых слов и регулярных выражений при сопоставимой стоимости и успешно выявил десятки реальных вредоносных навыков, включая те, которые пропустили SkillSpector и Cisco Skill Scanner.

Метод позволяет эффективно проводить аудит целых маркетплейсов навыков, а не только выборок, выявляя скрытые угрозы, ускользающие от существующих инструментов обнаружения.