Un utilisateur demande des retours d'expérience concernant l'ablation du mandarin, du russe et de l'arabe depuis un modèle afin de créer une version principalement basée sur le latin. L'objectif est de libérer de l'espace pour un entraînement supplémentaire ou un élagage sûr dans des contextes où l'anglais n'a aucune activation.
L'auteur décrit la création d'une liste de paires nom/verbe de type Swadesh à travers les quatre langues, en s'assurant que chaque paire soit soit tokenisée de manière identique à toutes les autres paires, soit complétée par du remplissage pour correspondre.