Análisis mecanicista con validación para la detección de suicidio en LLMs

Un marco con validación evalúa las características internas de los LLM solo después de observar el comportamiento, revelando una característica intermedia de la red que contribuye causalmente a la detección del suicidio. Esta característica es semántica, de rango bajo, transversal a modelos y específica para el suicidio en lugar de la angustia general, aunque la dirección es necesaria pero no suficiente. El patrón muestra que los modelos más pequeños codifican el suicidio pero solo los más grandes actúan sobre él, con evidencia limitada al texto de Reddit en inglés.