La brecha de inatención: los modelos condicionados por tarea omiten señales de seguridad

Un estudio revela que condicionar modelos de lenguaje y visión en tareas estrechas suprime su capacidad para informar sobre señales críticas para la seguridad presentes simultáneamente, las cuales pueden detectar de otro modo. Este fenómeno, denominado "brecha de inatención", demuestra una disociación entre la seguridad medida en benchmarks y la seguridad en el mundo real.

La supresión de señales de seguridad ocurrió en tareas de radiología, texto para conducción y visión de radiografías de tórax en todos los modelos probados.
El efecto no disminuyó con la escala del modelo y persistió incluso en modelos de razonamiento.
Las variaciones en la supresión fueron impulsadas más por la familia del modelo que por su tamaño.
Los modelos informaron de estas señales críticas a tasas sustancialmente más altas cuando operaban sin restricciones de tarea.

Los autores argumentan que esta brecha desacopla el rendimiento en benchmarks de la seguridad real, lo que significa que un sistema puede obtener una puntuación casi perfecta en peligros especificados mientras permanece ciego ante aquellos que causan daños en el mundo real.