Бенчмарк 8 LLM на 300 синтетических диалогов врачи-пациенты выявил 12 высококритичных выдумок и 520 клинически значимых пропусков. Пропуски были значительно чаще, чем выдумки: DeepSeek показал отличные качества в стилистике и стоимости, но упустил множество фактов о безопасности, в то время как Claude Opus имел наименьшее количество пропусков, но худшую стилистическую оценку.