arxiv arXiv cs.AI · hace 1 h · fuente: hace 11 d · research

SciRisk-Bench: Una evaluación de referencia consciente de las dimensiones del riesgo para la seguridad en IA4Science

Traducido del English → Español

SciRisk-Bench introduce una evaluación de referencia para evaluar la seguridad de IA4Science mediante la evaluación de modelos en 7 disciplinas, 31 subdisciplinas y 10 dimensiones de riesgo. Evalúa tanto LLMs mainstream como orientados a la ciencia para identificar brechas específicas en el reconocimiento y la evitación de riesgos dentro de contextos científicos de alto riesgo.

Importancia 2/3 arXiv cs.AI Benchmark results Evaluation & benchmarks Safety & alignment

Leer original