Исследование изучает влияние избыточных отказов на малые, встроенные языковые модели при обработке юридических запросов, выявляя, что префиксы авторитетного стиля систематически увеличивают частоту отказов в 2–20 раз по сравнению с базовой линией без префикса. В то время как префиксы взлома через ролевую игру показали смешанные эффекты на разных моделях, результаты указывают на то, что эти малые LLM нестабильны при контекстуальных обрамлениях, типичных для реальных институциональных пользователей.
- Префиксы авторитетного стиля (например, "действуя как помощник национального верховного суда") увеличивают частоту отказов в 2–20 раз по сравнению с базовой линией без префикса.
- Известный префикс взлома через ролевую игру показывает смешанные эффекты: резко увеличивает отказы в некоторых моделях, но почти не влияет на другие.
- Малые локальные LLM проявляют нестабильность при воздействии контекстуальных обрамлений, которые реальные институциональные пользователи могут естественно внедрять.
Результаты указывают на то, что дальнейшее исследование необходимо для минимизации возможностей для предвзятости, вносимой избирательными отказами в юридических контекстах.