HERMES 是一种从数据导出的标注基底,它使用学习到的语义变换和3阶段残差向量量化,将文档标注为从粗到细的代码,最多包含约130k个单元。
- 它通过前缀长度实现粒度控制,克服了现有标签仅绑定单一语义轴的局限。
- 在粗粒度下,HERMES 在标准聚类指标上与 KMeans 系列方法表现相当。
- 在1B参数、25B token的预训练中,结合阶段2的规则对比与等子桶覆盖,使16项任务的宏观平均性能提升了+0.0253。
- 在候选池收缩约5倍的更细粒度层级上,性能增益消失。
HERMES 将数据混合设计从在固定标签集中选择,重构为导航一个可重用、从数据导出的粒度层次结构。