SciRisk-Bench introduce una evaluación de referencia para evaluar la seguridad de IA4Science mediante la evaluación de modelos en 7 disciplinas, 31 subdisciplinas y 10 dimensiones de riesgo. Evalúa tanto LLMs mainstream como orientados a la ciencia para identificar brechas específicas en el reconocimiento y la evitación de riesgos dentro de contextos científicos de alto riesgo.
SciRisk-Bench: Una evaluación de referencia consciente de las dimensiones del riesgo para la seguridad en IA4Science
Traducido del English → Español