Un estudio investiga el impacto del sobrerechazo en modelos de lenguaje grandes pequeños, ejecutados en dispositivo, al procesar prompts legales, encontrando que los prefijos de estilo autoritario aumentan sistemáticamente las tasas de rechazo entre 2 y 20 veces en comparación con una línea base sin prefijo. Si bien los prefijos de jailbreak mediante role-play mostraron efectos mixtos en diferentes modelos, los resultados indican que estos pequeños LLM son inestables bajo encuadres contextuales típicos de usuarios institucionales reales.

  • Los prefijos de estilo autoritario (por ejemplo, "actuando como asistente de la corte suprema nacional") aumentan las tasas de rechazo entre 2 y 20 veces sobre la línea base sin prefijo.
  • Un prefijo conocido de jailbreak mediante role-play muestra efectos mixtos, aumentando drásticamente los rechazos en algunos modelos mientras apenas los desplaza en otros.
  • Los pequeños LLM locales exhiben inestabilidad cuando se someten a encuadres contextuales que los usuarios institucionales reales podrían introducir naturalmente.

Los hallazgos sugieren que es esencial realizar más investigaciones para minimizar las oportunidades de sesgo introducidas por el rechazo selectivo en contextos legales.