IHDec решает проблему потери Large Language Models иерархии инструкций в контексте многошаговых взаимодействий, используя расхождение Йенсена-Шеннона для обнаружения и исправления инверсий влияния ролей. Этот метод без дообучения динамически подавляет подчинённые роли, которые перехватывают управление у вышестоящих директив во время генерации токенов.
- Формализует явление инверсии влияния ролей, при котором подчинённые входы перехватывают управление у вышестоящих ролей, с использованием фреймворка расхождения Йенсена-Шеннона.
- Автоматически обнаруживает нарушения иерархии на уровне токенов без необходимости дорогостоящего дообучения или тренировки модели.
- Превосходит базовые методы, основанные на обучении, в сценариях конфликтов многошаговых взаимодействий, полностью сохраняя качество общих ответов.
- Повышает безопасность от вредоносных инъекций промптов и демонстрирует устойчивую синергию масштабирования с более крупными моделями.
Подход обеспечивает масштабируемое решение без дообучения для защиты иерархий инструкций, гарантируя сохранение директив высшего приоритета даже при конфликте с входами низшего приоритета в сложных многошаговых взаимодействиях.