Возможно ли создание вредоносной LLM с бэкдором

Пользователь Reddit предлагает возможность обучения больших языковых моделей распознаванию конкретного секретного предложения, которое активирует вредоносное поведение, что вызывает опасения относительно рисков безопасности как для закрытых, так и для моделей с открытым исходным кодом.

Риск применим ко всем LLM, пока обучающие данные остаются неизвестными.
Закрытые модели считаются более рискованными, поскольку провайдеры могут намеренно изменять поведение на основе исходного кода.
Локальные LLM ограничивают внешнюю инъекцию бэкдоров, но остаются уязвимыми к внутренним триггерам, таким как конкретные даты или время.
Автор предлагает обнаруживать скрытое поведение путем отправки миллионов запросов и мониторинга кластеров нейронов в режиме ожидания, которые могут активироваться при определенных условиях.