Безопасность отражения в предобучении для языковых моделей

Безопасность отражения в предобучении вставляет краткие отражения по безопасности в данные предобучения, чтобы обеспечить самонаблюдение в языковых моделях. Эксперименты с моделями 1,7B на наборе FineWeb-Edu показывают улучшенную точность по безопасности и снижение успешности атак, при этом MedSafetyWorld демонстрирует, что данный метод лучше предотвращает обобщение небезопасного поведения из безопасных данных, чем фильтрация данных или переписывание.