Morpheus — это морфологически осознанный нейронный токенизатор и векторизатор для турецкого языка, который сохраняет исходный текст за счёт безпотерьного кодирования и декодирования. Он достигает наименьшего количества бит на символ (1,425), улучшает морфологическую синхронизацию (MorphScore macro-F1 0,61) и использует на 19% меньше видеопамяти, чем токенизаторы на основе подслов с словарём из 64 тысяч слов. Векторы Morpheus, закреплённые в памяти, превосходят BGE-M3 и BERTurk по лексическому поиску, с показателем MAP по корневым семействам 0,85 и ROC-AUC 1,00.
Morpheus: нейронный токенизатор и векторизатор для турецкого языка
Переведено с English → Русский