IHUBERT: Монолингвальный персийский предобученный модель с семантической дедупликацией

IHUBERT — это монолингвальный персийский предобученный язык-модель, обученная на отобранных 45 ГБ из коллекции Sepahr-Danesh. Модель использует векторную семантическую дедупликацию и пайплайн предобучения с балансировкой доменов для улучшения качества корпуса и снижения дублирования, достигая лучших результатов в извлечении ответов на вопросы и хороших результатов в распознавании сущностей и классификации тем, хотя распознавание связей остаётся сложной задачей.