RAS: Midiendo la seguridad de los LLM mediante alineación del rechazo

Los autores proponen SafeVec, un procedimiento de evaluación de caja blanca que mide la seguridad de los LLM utilizando representaciones internas en lugar de las salidas generadas. Este método extrae direcciones de rechazo capa por capa de un modelo de referencia alineado para la seguridad, con el fin de identificar capas estables donde los comportamientos seguros e inseguros son separables. Luego puntúa a los modelos objetivo verificando si sus estados ocultos se alinean con estas direcciones de rechazo durante las indicaciones inseguras. La métrica resultante, RAS (Puntuación de Alineación del Rechazo), mapea esta alineación a una puntuación de seguridad calibrada de 0-100. Los experimentos en las familias Llama, Gemma y Qwen muestran que RAS separa eficazmente los modelos alineados de sus variantes sin censura. Además, la métrica rastrea las tasas de éxito de ataques a nivel de salida mientras es sustancialmente más rápida que las evaluaciones basadas en jueces. Estos hallazgos sugieren que la alineación del rechazo ofrece una señal compacta y eficiente para la evaluación de seguridad de caja blanca.