В статье представлена Tatoxa — современная система, предназначенная для автоматической детоксикации текстов на малоресурсном татарском языке. Эта работа решает проблему недостатка исследовательского внимания к смягчению последствий оскорбительного контента в языках с ограниченными цифровыми ресурсами. Авторы представляют новый набор данных, специально созданный для тонкой настройки и оценки моделей детоксикации в условиях таких ограничений. Сравнительные эксперименты показывают, что Tatoxa превосходит как существующие модели больших языковых моделей с открытым исходным кодом, так и проприетарные коммерческие решения по ключевым метрикам качества. Кроме того, исследование изучает возможности кросс-язычного переноса для оценки целесообразности использования данных из других языков. Результаты указывают на то, что обучение на родных татарских данных значительно эффективнее, чем перенос знаний из культурно близких языков, таких как русский. Даже при наличии большого корпуса русских текстов кросс-язычные подходы показывают худшие результаты по сравнению с моделями, обученными исключительно на нативных татарских текстах.
Tatoxa: новая система детоксикации текстов для малоресурсного татарского языка
Переведено с English → Русский