NuclearQAv2: Структурированный бенчмарк для оценки компетенции в области ядерной науки у больших языковых моделей
Исследователи представляют NuclearQAv2, новый бенчмарк, разработанный для оценки надежности больших языковых моделей в ядерной инженерии путем проверки фактических знаний, количественных рассуждений и концептуального понимания.