AIPatient Arena оценивает большие языковые модели в полных клинических консультациях с использованием пациентспецифических знаний, основанных на ЭРВ. Он оценивает LLM по восьми клинических компетенциям, выявляя сильную производительность в навыках интервью, этике и ясности объяснений, но устойчивые слабости в обработке неопределённости, охвате информации и диагностическом мышлении, а также процессы сбоев, такие как повторяющиеся вопросы и пропуск истории.