Este estudio evalúa el uso de incrustaciones de transformadores específicas del dominio combinadas con modelos clásicos de aprendizaje automático para detectar errores de dosificación en protocolos de ensayos clínicos. La investigación tiene como objetivo mejorar la seguridad del paciente y la integridad del ensayo identificando errores de medicación prevenibles temprano mediante el análisis de representación textual.
- Los datos textuales de los ensayos clínicos se codificaron utilizando ClinicalBERT, PubMedBERT, BioBERT y MedCPT, luego se integraron con características categóricas.
- BioBERT superó consistentemente a otros codificadores bajo una línea base de regresión logística, logrando un ROC-AUC de 0.794, lo que representa una mejora del 3.95% sobre ClinicalBERT.
- Combinar múltiples incrustaciones no produjo mejoras en el rendimiento, lo que indica que la alineación del dominio es más crítica que la apilamiento representacional.
- Los modelos de gradiente boosting, clasificadores SVM, regresión logística y redes neuronales residenciales lograron el mejor rendimiento general con ROC-AUCs que oscilan entre 0.821 y 0.853.
La integración de incrustaciones de transformadores específicas del dominio con metadatos estructurados permite la discriminación de ensayos que cumplen criterios elevados de riesgo de error de dosificación, avanzando en el monitoreo de seguridad y apoyando la toma de decisiones regulatorias informada.