Construimos y publicamos un gran conjunto de datos biomédicos con 1.88 millones de artículos de PMC. El análisis muestra que los resúmenes escritos por los autores varían en calidad y alineación con los artículos originales, lo que permite una selección efectiva de datos de entrenamiento. Entrenar con subconjuntos de alta calidad supera al muestreo aleatorio y iguala a subconjuntos aleatorios más grandes en métricas de factualidad.