Безопасность отражения в предобучении для языковых моделей

Безопасность отражения в предобучении вставляет краткие отражения по безопасности в данные предобучения, чтобы обеспечить самонаблюдение в языковых моделях. Эксперименты с моделями 1,7B на наборе FineWeb-Edu показывают улучшение точности безопасности и снижение успешности атак, при этом MedSafetyWorld демонстрирует, что данный метод лучше предотвращает обобщение опасных поведений из безопасных данных, чем фильтрация или переписывание данных.