Новый метод использует фильтрацию по плотности медицинских терминов и усиление сигнала путём перефразирования для улучшения предобучения французского медицинского энкодера. Этот подход превосходит фильтры качества образования и даёт модели FineMed и DoctoBERT, достигая лучших результатов на DrBenchmark и задаче клинического извлечения имён сущностей (NER).
Рецепт веб-данных для предобучения медицинского энкодера
Переведено с English → Русский