TF-RefusalBench — это мультяжный бенчмарк, основанный на решениях Священного суда Швейцарии, содержащий 5200 запросов на французском, немецком, итальянском и английском языках. Он показывает, что чрезмерная синхронизация в LLMs зависит от факторов модели и языка, и что отказы влияют на достоверность задачи за пределами простых показателей отказов. Удаление директив по отказу снижает чрезмерную синхронизацию с минимальными потерями производительности в задачах уголовного права.