Сила клинических доказательств восстанавливается по представлениям LLM, а не по заявленным оценкам

Исследование 22 моделей с открытым весом показывает, что силу клинических доказательств можно восстановить по активациям модели и тексту, хотя явно заявленные моделями оценки не лучше случайного угадывания. Исследователи проанализировали 45 134 клинических утверждения, гармонизированных в четыре уровня доказательности, чтобы проверить, фиксируют ли модели силу доказательств отдельно от фактической истинности.

Линейный оценщик успешно восстановил уровень доказательности во всех протестированных моделях со средним медианным AUROC 71.8.
Восстанавливаемый сигнал был преимущественно лексическим и не переносился между темами или фреймворками, оставаясь отличным от фактической истинности.
Заявленные оценки упали до уровня случайного угадывания, показав результат на 25–27 процентных пунктов ниже производительности оценщика.
Восстанавливаемость силы доказательств не возрастала с масштабом модели и была наименьшей в моделях рассуждений.

Выводы указывают на то, что клинические LLM содержат упорядоченный сигнал поддержки доказательств внутри своих представлений, но не способны его выразить; это означает, что их заявленные оценки неточно передают поддержку утверждения, даже когда информация присутствует.