Языковые модели ДНК: Оценка преимуществ предобучения для задач дообучения
В данном исследовании оцениваются приросты производительности трансформерных языковых моделей ДНК, таких как DNABERT2, по сравнению с традиционными подходами, такими как ConvNova, уделяя особое внимание высокой стоимости предобучения. Исследуется, оправдывают ли эти улучшения вычислительные накладные расходы, и анализируется влияние токенизации Byte Pair Encoding (BPE) на геномные задачи.