Исследователи представляют NuclearQAv2, новый бенчмарк, разработанный для оценки надежности больших языковых моделей в ядерной инженерии путем проверки фактических знаний, количественных рассуждений и концептуального понимания.
- Бенчмарк состоит примерно из 1 240 пар вопрос-ответ, классифицированных как булевы, числовые или вербальные.
- Он создан с помощью гибридного конвейера, объединяющего вопросы, составленные экспертами, существующие наборы данных и генерацию с помощью LLM из технических корпусов.
- Оценка показывает, что хотя модели хорошо справляются с фактическими вопросами, количественные рассуждения и концептуальное понимание остаются значительно более сложными задачами.
Эта работа закрепляет NuclearQAv2 как масштабируемую основу для оценки возможностей LLM в технических областях, подчеркивая необходимость многогранной оценки, выходящей за рамки простого воспроизведения фактов.