NuclearQAv2: Un benchmark estructurado para evaluar la competencia en ciencias del dominio en modelos de lenguaje grandes
Los investigadores presentan NuclearQAv2, un nuevo benchmark diseñado para evaluar la fiabilidad de los modelos de lenguaje grandes en ingeniería nuclear mediante pruebas de conocimiento factual, razonamiento cuantitativo y comprensión conceptual.