Detección de habilidades maliciosas de agentes en entornos reales mediante atención

Los autores presentan Locate-and-Judge, un detector de dos etapas diseñado para identificar habilidades maliciosas en mercados de agentes LLM donde las defensas tradicionales contra inyección de prompts fallan.

El sistema utiliza un localizador ligero para puntuar segmentos estructurales mediante atención de seguimiento de instrucciones y conserva solo los K segmentos superiores para un juicio detallado.
Este enfoque reduce los costos en un orden de magnitud en comparación con el escaneo directo basado en LLM, permitiendo la auditoría a escala del mercado con un gasto insignificante.
Locate-and-Judge supera las líneas base de palabras clave y regex a un costo comparable y ha identificado con éxito docenas de habilidades maliciosas en vivo, incluidas aquellas que pasaron por alto SkillSpector y Cisco Skill Scanner.

El método permite la auditoria eficiente de mercados de habilidades completos en lugar de solo muestras, revelando amenazas ocultas que evaden las herramientas de detección existentes.