Sobrerechazo de pequeños LLM locales en contexto legal penal
Un estudio investiga el impacto del sobrerechazo en modelos de lenguaje grandes pequeños, ejecutados en dispositivo, al procesar prompts legales, encontrando que los prefijos de estilo autoritario aumentan sistemáticamente las tasas de rechazo entre 2 y 20 veces en comparación con una línea base sin prefijo. Si bien los prefijos de jailbreak mediante role-play mostraron efectos mixtos en diferentes modelos, los resultados indican que estos pequeños LLM son inestables bajo encuadres contextuales típicos de usuarios institucionales reales.