NuclearQAv2: Un benchmark estructurado para evaluar la competencia en ciencias del dominio en modelos de lenguaje grandes

Los investigadores presentan NuclearQAv2, un nuevo benchmark diseñado para evaluar la fiabilidad de los modelos de lenguaje grandes en ingeniería nuclear mediante pruebas de conocimiento factual, razonamiento cuantitativo y comprensión conceptual.

El benchmark consta de aproximadamente 1.240 pares de pregunta-respuesta categorizados como booleanos, numéricos o verbales.
Se construye mediante una tubería híbrida que combina preguntas elaboradas por expertos, conjuntos de datos existentes y generación asistida por LLM a partir de corpus técnicos.
La evaluación revela que, aunque los modelos manejan bien las preguntas factuales, el razonamiento cuantitativo y la comprensión conceptual siguen siendo significativamente más desafiantes.

Este trabajo establece NuclearQAv2 como un marco escalable para evaluar las capacidades de los LLM en dominios técnicos, destacando la necesidad de una evaluación multifacética más allá de la simple recuperación factual.