一位用户询问有关从模型中剔除中文、俄语和阿拉伯语以创建主要基于拉丁字母版本的经验。目标是在英语无激活的场景中,为进一步训练或安全剪枝腾出空间。

作者描述了在四种语言间创建一个类似斯瓦迪士核心词表的动名词对列表,确保每对要么与其他所有对标记匹配,要么填充至匹配。