В данном исследовании оценивается использование специализированных трансформерных эмбеддингов, объединенных с классическими моделями машинного обучения, для обнаружения ошибок дозирования в протоколах клинических испытаний. Исследование направлено на повышение безопасности пациентов и целостности испытаний за счет раннего выявления предотвратимых ошибок приема лекарств посредством анализа текстовых представлений.
- Текстовые данные из клинических испытаний кодировались с помощью ClinicalBERT, PubMedBERT, BioBERT и MedCPT, затем интегрировались с категориальными признаками.
- BioBERT последовательно превосходил другие энкодеры на базе логистической регрессии, достигнув ROC-AUC 0.794, что представляет собой улучшение на 3,95% по сравнению с ClinicalBERT.
- Объединение нескольких эмбеддингов не привело к улучшению производительности, что указывает на то, что соответствие домену важнее, чем простое наложение представлений.
- Модели градиентного бустинга, классификаторы опорных векторов, логистическая регрессия и остаточные нейронные сети показали наилучшие общие результаты с ROC-AUC в диапазоне от 0.821 до 0.853.
Интеграция специализированных трансформерных эмбеддингов со структурированными метаданными позволяет дифференцировать испытания, соответствующие критериям повышенного риска ошибок дозирования, что способствует совершенствованию мониторинга безопасности и поддержке обоснованного принятия регуляторных решений.