SpeechDx presenta un benchmark a gran escala con 12 conjuntos de datos y 27 tareas en diversas condiciones de salud. Evalúa modelos por etapas de producción del habla y revela que los modelos a gran escala tienen el mejor rendimiento, mientras que los modelos específicos del dominio muestran una generalización limitada entre condiciones clínicas.