Um usuário pede experiências sobre a ablação do mandarim, russo e árabe de um modelo para criar uma versão predominantemente baseada no alfabeto latino. O objetivo é liberar espaço para treinamento adicional ou poda segura em contextos onde o inglês não tem ativação.
O autor descreve a criação de uma lista de pares de substantivo/verbo estilo Swadesh nas quatro línguas, garantindo que cada par corresponda token a token com todos os outros pares ou seja preenchido para igualar.