Пользователь Reddit предлагает возможность обучения больших языковых моделей распознаванию конкретного секретного предложения, которое активирует вредоносное поведение, что вызывает опасения относительно рисков безопасности как для закрытых, так и для моделей с открытым исходным кодом.

  • Риск применим ко всем LLM, пока обучающие данные остаются неизвестными.
  • Закрытые модели считаются более рискованными, поскольку провайдеры могут намеренно изменять поведение на основе исходного кода.
  • Локальные LLM ограничивают внешнюю инъекцию бэкдоров, но остаются уязвимыми к внутренним триггерам, таким как конкретные даты или время.
  • Автор предлагает обнаруживать скрытое поведение путем отправки миллионов запросов и мониторинга кластеров нейронов в режиме ожидания, которые могут активироваться при определенных условиях.