Пробел невнимательности: модели, адаптированные под задачу, игнорируют сигналы безопасности

Исследование показывает, что адаптация языковых и зрительных моделей к узким задачам подавляет их способность сообщать о сопутствующих критически важных сигналах безопасности, которые они в противном случае могли бы обнаружить. Это явление, названное «Пробелом невнимательности», демонстрирует разрыв между измеренной безопасностью по бенчмаркам и реальной безопасностью.

Подавление сигналов безопасности наблюдалось во всех протестированных моделях при выполнении задач радиологии, анализа текста для вождения и зрительных задач с рентгенограммами грудной клетки.
Эффект не уменьшался с увеличением масштаба модели и сохранялся даже в моделях, способных к рассуждению.
Вариации в подавлении больше зависели от семейства модели, чем от её размера.
Модели сообщали об этих критических сигналах с существенно более высокой частотой при работе без ограничений задачи.

Авторы утверждают, что этот разрыв отделяет производительность по бенчмаркам от фактической безопасности, что означает: система может показывать почти идеальный результат на заданных опасностях, оставаясь слепой к тем, которые причиняют реальный вред.