IHUBERT: Монолингвальный предобученный модель на персидском языке с семантической дедупликацией

IHUBERT — это монолингвальный предобученный языковой модель на персидском языке, обученная на отобранных подмножестве объемом 45 ГБ из коллекции Sepahr-Danesh. Модель использует векторную семантическую дедупликацию и пайплайн предобучения с балансировкой по доменам для улучшения качества корпуса и снижения дублирования, достигая лучших результатов в извлечении ответов на вопросы и хороших результатов в распознавании сущностей и классификации тем, хотя распознавание связей остается сложной задачей.