Пользователь Reddit предлагает возможность обучения больших языковых моделей распознаванию конкретного секретного предложения, которое активирует вредоносное поведение, что вызывает опасения относительно рисков безопасности как для закрытых, так и для моделей с открытым исходным кодом.
- Риск применим ко всем LLM, пока обучающие данные остаются неизвестными.
- Закрытые модели считаются более рискованными, поскольку провайдеры могут намеренно изменять поведение на основе исходного кода.
- Локальные LLM ограничивают внешнюю инъекцию бэкдоров, но остаются уязвимыми к внутренним триггерам, таким как конкретные даты или время.
- Автор предлагает обнаруживать скрытое поведение путем отправки миллионов запросов и мониторинга кластеров нейронов в режиме ожидания, которые могут активироваться при определенных условиях.