Новый метод использует фильтрацию на основе плотности медицинских терминов и усиление сигнала за счёт переформулировки, чтобы улучшить предобучение медицинских энкодеров на французском языке. Подход превосходит фильтры образовательного качества и приводит к моделям FineMed и DoctoBERT, достигающим лучших результатов на DrBenchmark и задаче распознавания клинических сущностей.
Web Data Recipe for Medical Encoder Pretraining
Переведено с English → Русский