SciFactCheck evalúa 18 LLM en cinco dominios científicos, encontrando que los modelos ajustados finamente desde el punto de vista científico muestran una fiabilidad factual degradada y una confianza interna reducida a pesar de una mayor asertividad lingüística. Los estudios humanos revelan un acuerdo limitado entre las herramientas de verificación de hechos y los juicios de expertos, destacando los desafíos en la definición de afirmaciones científicas válidas.