TF-RefusalBench es un benchmark multilingüe derivado de sentencias del Tribunal Supremo suizo, que contiene 5.200 prompts en francés, alemán, italiano e inglés. Revela que la sobre-alineación en LLMs está influenciada por factores del modelo y del idioma, y que las negativas impactan la fidelidad de la tarea más allá de las tasas simples de rechazo. La abliteration de directivas de rechazo reduce la sobre-alineación con una pérdida mínima de rendimiento en tareas de derecho penal.
TF-RefusalBench mide la sobre-alineación en LLMs para derecho penal
Traducido del English → Español