CaresAI на CT-DEB26: Обнаружение ошибок дозирования в клинических испытаниях с использованием специализированных трансформерных эмбеддингов и моделей классификации

В данном исследовании оценивается использование специализированных трансформерных эмбеддингов, объединенных с классическими моделями машинного обучения, для обнаружения ошибок дозирования в протоколах клинических испытаний. Исследование направлено на повышение безопасности пациентов и целостности испытаний за счет раннего выявления предотвратимых ошибок приема лекарств посредством анализа текстовых представлений.

Текстовые данные из клинических испытаний кодировались с помощью ClinicalBERT, PubMedBERT, BioBERT и MedCPT, затем интегрировались с категориальными признаками.
BioBERT последовательно превосходил другие энкодеры на базе логистической регрессии, достигнув ROC-AUC 0.794, что представляет собой улучшение на 3,95% по сравнению с ClinicalBERT.
Объединение нескольких эмбеддингов не привело к улучшению производительности, что указывает на то, что соответствие домену важнее, чем простое наложение представлений.
Модели градиентного бустинга, классификаторы опорных векторов, логистическая регрессия и остаточные нейронные сети показали наилучшие общие результаты с ROC-AUC в диапазоне от 0.821 до 0.853.

Интеграция специализированных трансформерных эмбеддингов со структурированными метаданными позволяет дифференцировать испытания, соответствующие критериям повышенного риска ошибок дозирования, что способствует совершенствованию мониторинга безопасности и поддержке обоснованного принятия регуляторных решений.