Auditoría de la inestabilidad conductual sensible al encuadre en LLMs para salud mental

Este estudio investiga cómo las preocupaciones semánticamente similares presentadas a través de diferentes encuadres contextuales elicitan respuestas variables en modelos de lenguaje grandes ajustados por instrucciones, desafiando potencialmente la fiabilidad del sistema. Utilizando prompts controlados emparejados y análisis de sondeo capa por capa, los autores demuestran que el encuadre altera sistemáticamente las tendencias de respuesta interpretativa a través de múltiples arquitecturas de modelos.

El encuadre altera sistemáticamente las tendencias de respuesta interpretativa a través de las arquitecturas.
La información asociada al comportamiento permanece decodificable a lo largo de la profundidad del transformador con variación dependiente de la arquitectura en la fuerza de decodificación.
Los sondeos de encuadre fuera de muestra permanecieron consistentemente por encima del azar a pesar de las bases léxicas fuertes.
Los experimentos de dirección de activación sugieren que las direcciones representativas asociadas al encuadre pueden modular parcialmente los resultados conductuales posteriores.

Los hallazgos indican que la robustez ante la variación contextual es una consideración crítica al evaluar la consistencia y confiabilidad de los sistemas de IA conversacional desplegados en interacciones de salud mental.