Пользователь спрашивает об опыте аблиации мандаринского, русского и арабского языков из модели для создания версии, преимущественно основанной на латинице. Цель — освободить место для дальнейшего обучения или безопасного прунинга в контекстах, где английский не используется.
Автор описывает создание списка пар существительных/глаголов по типу Свотша для четырёх языков, гарантируя, что каждая пара либо токенизируется одинаково с другими, либо дополняется до совпадения.