Измерение и смягчение эффекта пере-выравнивания для больших языковых моделей в многоязычных уголовных судах

В данной статье рассматривается проблема пере-выравнивания больших языковых моделей, используемых в контексте уголовного права Швейцарского федерального верховного суда, где защитные механизмы модели часто вызывают отказы при обработке конфиденциальных деталей дел. Авторы представляют TF-RefusalBench — многоязычный бенчмарк, созданный на основе публичных судебных решений, для измерения этого явления на французском, немецком, итальянском и английском языках.

TF-RefusalBench содержит 5200 промптов, охватывающих распространенные задачи и фрагменты текста, которые с высокой вероятностью могут вызвать отказ в четырех официальных языках.
Пере-выравнивание выявлено как многогранное явление, на которое влияют модель, а также языки промпта и обрабатываемого текста.
Влияние пере-выравнивания выходит за рамки простых отказов и затрагивает достоверность выполнения задач из-за наличия дисклеймеров.
Метод аблиторации (abliteration), включающий абляцию направлений отказа, устраняет отказы с минимальным влиянием на качество выполнения задачи по сравнению с использованием только промптинга.

Исследование демонстрирует, что аблиторация является эффективным подходом для включения больших языковых моделей в локальную инфраструктуру (on-premises) для решения задач уголовного права без активации защитных механизмов, тем самым поддерживая законную работу, связанную с описанием насильственных и сексуальных преступлений.