NuclearQAv2: Структурированный бенчмарк для оценки компетенции в области ядерной науки у больших языковых моделей

Исследователи представляют NuclearQAv2, новый бенчмарк, разработанный для оценки надежности больших языковых моделей в ядерной инженерии путем проверки фактических знаний, количественных рассуждений и концептуального понимания.

Бенчмарк состоит примерно из 1 240 пар вопрос-ответ, классифицированных как булевы, числовые или вербальные.
Он создан с помощью гибридного конвейера, объединяющего вопросы, составленные экспертами, существующие наборы данных и генерацию с помощью LLM из технических корпусов.
Оценка показывает, что хотя модели хорошо справляются с фактическими вопросами, количественные рассуждения и концептуальное понимание остаются значительно более сложными задачами.

Эта работа закрепляет NuclearQAv2 как масштабируемую основу для оценки возможностей LLM в технических областях, подчеркивая необходимость многогранной оценки, выходящей за рамки простого воспроизведения фактов.