Los autores presentan Locate-and-Judge, un detector de dos etapas diseñado para identificar habilidades maliciosas en mercados de agentes LLM donde las defensas tradicionales contra inyección de prompts fallan.

  • El sistema utiliza un localizador ligero para puntuar segmentos estructurales mediante atención de seguimiento de instrucciones y conserva solo los K segmentos superiores para un juicio detallado.
  • Este enfoque reduce los costos en un orden de magnitud en comparación con el escaneo directo basado en LLM, permitiendo la auditoría a escala del mercado con un gasto insignificante.
  • Locate-and-Judge supera las líneas base de palabras clave y regex a un costo comparable y ha identificado con éxito docenas de habilidades maliciosas en vivo, incluidas aquellas que pasaron por alto SkillSpector y Cisco Skill Scanner.

El método permite la auditoria eficiente de mercados de habilidades completos en lugar de solo muestras, revelando amenazas ocultas que evaden las herramientas de detección existentes.