IHDec aborda el fallo de los Modelos de Lenguaje Grandes (LLM) para mantener jerarquías de instrucciones en contextos de múltiples turnos, aprovechando la Divergencia de Jensen-Shannon para detectar y corregir inversiones de influencia de roles. Este método sin entrenamiento suprime dinámicamente los roles subordinados que anulan las directivas superiores durante la generación de tokens.

  • Formaliza el fenómeno de inversión de influencia de roles donde las entradas subordinadas anulan los roles superiores utilizando un marco de Divergencia de Jensen-Shannon.
  • Detecta automáticamente violaciones de jerarquía a nivel de token sin requerir ajuste fino costoso ni entrenamiento del modelo.
  • Supera a las líneas base basadas en entrenamiento en escenarios de conflicto de múltiples turnos mientras preserva completamente la calidad general de la respuesta.
  • Fortalece la seguridad contra inyecciones de prompts adversarios y exhibe una sinergia de escalado robusta con modelos más grandes.

El enfoque proporciona una solución escalable y sin entrenamiento para asegurar jerarquías de instrucciones, asegurando que las directivas de mayor prioridad se mantengan incluso cuando entren en conflicto con entradas de menor prioridad en interacciones complejas de múltiples turnos.