IHDec: Контрастивное декодирование с управлением расхождением для защиты иерархий инструкций в многошаговых диалогах

IHDec решает проблему потери Large Language Models иерархии инструкций в контексте многошаговых взаимодействий, используя расхождение Йенсена-Шеннона для обнаружения и исправления инверсий влияния ролей. Этот метод без дообучения динамически подавляет подчинённые роли, которые перехватывают управление у вышестоящих директив во время генерации токенов.

Формализует явление инверсии влияния ролей, при котором подчинённые входы перехватывают управление у вышестоящих ролей, с использованием фреймворка расхождения Йенсена-Шеннона.
Автоматически обнаруживает нарушения иерархии на уровне токенов без необходимости дорогостоящего дообучения или тренировки модели.
Превосходит базовые методы, основанные на обучении, в сценариях конфликтов многошаговых взаимодействий, полностью сохраняя качество общих ответов.
Повышает безопасность от вредоносных инъекций промптов и демонстрирует устойчивую синергию масштабирования с более крупными моделями.

Подход обеспечивает масштабируемое решение без дообучения для защиты иерархий инструкций, гарантируя сохранение директив высшего приоритета даже при конфликте с входами низшего приоритета в сложных многошаговых взаимодействиях.