SciRisk-Bench introduce una evaluación de referencia para evaluar la seguridad de IA4Science mediante la evaluación de modelos en 7 disciplinas, 31 subdisciplinas y 10 dimensiones de riesgo. Evalúa tanto LLMs mainstream como orientados a la ciencia para identificar brechas específicas en el reconocimiento y la evitación de riesgos dentro de contextos científicos de alto riesgo.