一个名为 UCTF(Universal Compressed Training Format,通用压缩训练格式)的新概念提出了一种中介层,旨在通过将多种语言压缩为统一的、与语言无关的 token 格式,来解决多语言 LLM 训练中的语义冗余问题。
- 该流水线摄取原始数据,通过跨语言嵌入提取含义,并将其编码为用于训练的密集机器优化表示。
- UCTF 将 Byte Latent Transformer 的概念扩展到跨语言领域,并利用 LaBSE 或 mE5 等现有工具进行语义向量映射。
- 潜在的好处包括减少存储和计算浪费、加快训练周期以及改善对低资源语言的支持。
作者寻求关于在不降低训练信号的情况下实现高压缩比的可行性,以及标准微调流水线是否保持兼容的技术批评。