arxiv arXiv cs.CL · 2 小时前 · research

HERMES：用于预训练数据混合的多粒度标注基底

译自 English → 中文

HERMES 是一种从数据导出的标注基底，它使用学习到的语义变换和3阶段残差向量量化，将文档标注为从粗到细的代码，最多包含约130k个单元。

它通过前缀长度实现粒度控制，克服了现有标签仅绑定单一语义轴的局限。
在粗粒度下，HERMES 在标准聚类指标上与 KMeans 系列方法表现相当。
在1B参数、25B token的预训练中，结合阶段2的规则对比与等子桶覆盖，使16项任务的宏观平均性能提升了+0.0253。
在候选池收缩约5倍的更细粒度层级上，性能增益消失。

HERMES 将数据混合设计从在固定标签集中选择，重构为导航一个可重用、从数据导出的粒度层次结构。

重要性 2/3 具有差异化优势的新评测框架 arXiv cs.CL Allen AI Research paper Training data