Гетерогенные последствия для безопасности при безвредной многоязычной дообучении

Комплексное эмпирическое исследование показывает, что дообучение больших языковых моделей на безвредных многоязычных данных значительно увеличивает их склонность к выполнению небезопасных состязательных запросов — явление, называемое «многоязычным дрейфом безопасности». Исследование демонстрирует, что результаты по безопасности крайне чувствительны как к языку дообучения, так и к языку оценки, при этом показатели выполнения возрастают в четыре раза в некоторых сценариях.

В исследовании модели Llama-3.2, Qwen3 и Gemma-3 были дообучены на безвредных данных, переведенных на девять языков.
Показатели состязательного выполнения увеличивались вплоть до четырех раз в зависимости от конкретной комбинации языков дообучения и оценки.
Многоязычный дрейф безопасности отделен от метрик общей способности и возникает гетерогенно для разных моделей и языков.
Дообучение на нелатинских (неанглийских) языках часто вызывает меньший внутренний дрейб репрезентаций по сравнению с английским, но приводит к тому, что модели начинают по умолчанию давать преувеличенные ответы согласия или отказа.
Авторы публикуют датасет Multilingual-Benign-Tune и набор для оценки SORRY-Bench-Multilingual, чтобы способствовать дальнейшим исследованиям этих кросс-лингвистических слепых зон безопасности.

Оценка влияния дообучения исключительно на английском языке дает недостаточные гарантии для развертывания, поскольку не учитывает эти гетерогенные риски безопасности, возникающие в других языках.