Открытые языковые модели показывают, что осознание оценки не является единым свойством. Восьмые эксперименты по 37 моделям показывают, что обнаружение, изменения поведения в области безопасности и стабильность представления варьируются независимо, причем между ними наблюдается лишь слабая корреляция. Это ослабляет идею о том, что один показатель осознания может быть надежным индикатором безопасности при развертывании, подчеркивая «обман бенчмарков».