Los investigadores presentan RaDaR, un modelo de lenguaje grande (LLM) de código abierto con 32B parámetros diseñado para acelerar el diagnóstico de enfermedades raras abordando desafíos en la implementabilidad clínica y la escasez de datos. El modelo fue entrenado con casi 50,000 casos públicos y más de 100,000 casos sintéticos, demostrando un rendimiento superior en benchmarks y centros de validación externa.
- RaDaR priorizó los diagnósticos finales antes de la sospecha clínica documentada en el 61.06% de los casos retrospectivos, ofreciendo un posible tiempo de antelación de 1.87 meses.
- En un ensayo aleatorizado de asistencia a médicos, RaDaR mejoró la precisión del diagnóstico en 21.44 puntos porcentuales en comparación con la búsqueda en internet por sí sola.
- El modelo superó a los modelos de código abierto evaluados, incluido el DeepSeek-R1 de 671B, en benchmarks públicos y cuatro centros de validación externa.
- Las ablaciones con datos sintéticos indican que las narrativas ancladas al fenotipo proporcionan una señal de entrenamiento útil para enfermedades raras de la cola larga con una tendencia de escalado monótona.
RaDaR proporciona un modelo de razonamiento implementable y un marco de desarrollo reproducible para la IA diagnóstica, ayudando a superar la escasez de experiencia clínica especializada y datos de entrenamiento en el diagnóstico de enfermedades raras.