MedBench v5 представляет динамический, процесс-ориентированный бенчмарк для клинических модальных моделей, включающий клиническую когнитивную реактивность и атомарные навыки по 63 задачам. В нем предусмотрены стресс-факторы для анализа деградации и мониторинга распространения галлюцинаций через пять узлов рассуждения, что показывает, что высокая производительность по задачам не гарантирует стабильность процесса.