SciRisk-Bench представляет бенчмарк для оценки безопасности AI4Science, оценивающий модели по 7 дисциплинам, 31 поддисциплине и 10 рискам. Он оценивает как основные, так и научно ориентированные LLMs, чтобы выявить конкретные пробелы в распознавании и избежании рисков в высокорисковых научных контекстах.
SciRisk-Bench: Бенчмарк, ориентированный на оценку рисков в области безопасности AI4Science
Переведено с English → Русский