OTTER — это черный ящик, система красного тестирования, которая обходит фильтры токсичности, изменяя не более пяти токенов. Оценка проводилась на 457 промптах AdvBench по четырем моделям GPT, что привело к росту успешности проникновения в систему с 7,0% до 84,0%, что представляет первую количественную аналитику взаимосвязей избегания токсичности и практические рекомендации по укреплению классификаторов.
OTTER: Система красного тестирования для оптимизации промптов, избегающих токсичность
Переведено с English → Русский