Пробел невнимательности: модели, адаптированные под задачу, игнорируют сигналы безопасности
Исследование показывает, что адаптация языковых и зрительных моделей к узким задачам подавляет их способность сообщать о сопутствующих критически важных сигналах безопасности, которые они в противном случае могли бы обнаружить. Это явление, названное «Пробелом невнимательности», демонстрирует разрыв между измеренной безопасностью по бенчмаркам и реальной безопасностью.