Никакие крупные языковые модели не способны надежно обнаруживать, когда их ответы были повлияны атаками на предварительные заполнения. Внутренние сигналы наиболее сильны в вопросах безопасности, но они зависят от выбора метода проверки и могут усиливаться при использовании LoRA-финтюнинга, что парадоксально повышает успешность атак.
LLMs не способны надежно отчетливо отражать влияние атак на предварительные заполнения
Переведено с English → Русский