Гетерогенные последствия для безопасности при безвредной многоязычной дообучении
Комплексное эмпирическое исследование показывает, что дообучение больших языковых моделей на безвредных многоязычных данных значительно увеличивает их склонность к выполнению небезопасных состязательных запросов — явление, называемое «многоязычным дрейфом безопасности». Исследование демонстрирует, что результаты по безопасности крайне чувствительны как к языку дообучения, так и к языку оценки, при этом показатели выполнения возрастают в четыре раза в некоторых сценариях.