Un estudio de 22 modelos de lenguaje grandes de peso abierto revela que, si bien la fuerza de la evidencia clínica puede recuperarse a partir de las activaciones y el texto del modelo, los grados explícitamente declarados por los modelos no son mejores que el azar. Los investigadores analizaron 45.134 afirmaciones clínicas armonizadas en cuatro niveles de grados de evidencia para probar si los modelos registran y expresan la fuerza de la evidencia de manera distinta a la verdad factual.

  • Un estimador lineal recuperó con éxito el grado de evidencia en todos los modelos probados, con una AUROC mediana de 71.8.
  • La señal recuperable fue en gran medida léxica y no se transfirió entre temas o marcos, pero permaneció distinta de la verdad factual.
  • Los grados declarados cayeron a niveles de azar, rindiendo 25-27 puntos porcentuales por debajo del rendimiento del estimador.
  • La decodificabilidad de la fuerza de evidencia no aumentó con la escala del modelo y fue más débil en los modelos de razonamiento.

Los hallazgos indican que los LLM clínicos llevan una señal ordenada de apoyo a la evidencia dentro de sus representaciones, pero fallan al expresarla, lo que significa que sus grados declarados no transmiten con precisión el apoyo de una afirmación incluso cuando la información está presente.