Исследование 22 моделей с открытым весом показывает, что силу клинических доказательств можно восстановить по активациям модели и тексту, хотя явно заявленные моделями оценки не лучше случайного угадывания. Исследователи проанализировали 45 134 клинических утверждения, гармонизированных в четыре уровня доказательности, чтобы проверить, фиксируют ли модели силу доказательств отдельно от фактической истинности.
- Линейный оценщик успешно восстановил уровень доказательности во всех протестированных моделях со средним медианным AUROC 71.8.
- Восстанавливаемый сигнал был преимущественно лексическим и не переносился между темами или фреймворками, оставаясь отличным от фактической истинности.
- Заявленные оценки упали до уровня случайного угадывания, показав результат на 25–27 процентных пунктов ниже производительности оценщика.
- Восстанавливаемость силы доказательств не возрастала с масштабом модели и была наименьшей в моделях рассуждений.
Выводы указывают на то, что клинические LLM содержат упорядоченный сигнал поддержки доказательств внутри своих представлений, но не способны его выразить; это означает, что их заявленные оценки неточно передают поддержку утверждения, даже когда информация присутствует.