HERMES: Многоуровневая подложка для аннотации смесей данных при предобучении

HERMES — это выводимая из данных подложка для аннотации, использующая обучаемое семантическое преобразование и 3-этапное остаточное векторное квантование для маркировки документов в код от грубого к детальному с до ~130k ячеек.

Она позволяет контролировать гранулярность через длину префикса, преодолевая ограничения существующих меток, фиксирующих одну семантическую ось.
На грубой гранулярности HERMES показывает результаты, сопоставимые с методами семейства KMeans по стандартным метрикам кластеризации.
При предобучении на 1B параметров и 25B токенов комбинация контраста правил этапа-2 с покрытием равных подведер подняла макро-среднее по 16 задачам на +0.0253.
Прирост производительности исчез на более мелких уровнях, где пулы кандидатов сократились примерно в 5 раз.

HERMES переосмысляет проектирование смесей данных: от выбора среди фиксированных наборов меток к навигации по многоразовой иерархии гранулярности, выводимой из данных.