HERMES : Un substrat d'étiquetage multi-granularité pour les mélanges de données de pré-entraînement

HERMES est un substrat d'étiquetage dérivé des données qui utilise une transformation sémantique apprise et une quantification vectorielle résiduelle en 3 étapes pour annoter des documents en un code allant du grossier au fin avec jusqu'à environ 130k cellules.

Il permet le contrôle de la granularité via la longueur du préfixe, surmontant les limites des étiquettes existantes qui s'engagent sur un seul axe sémantique.
À une granularité grossière, HERMES offre des performances comparables aux méthodes de la famille KMeans sur les métriques de clustering standard.
Lors d'un pré-entraînement de 1 milliard de paramètres et 25 milliards de tokens, la combinaison du contraste de règles de l'étape 2 avec une couverture égale des sous-seaux a amélioré la moyenne macro des capacités sur 16 tâches de +0,0253.
Le gain de performance a disparu aux niveaux plus fins où les pools de candidats se sont contractés d'environ 5 fois.

HERMES reformule la conception du mélange de données en passant du choix parmi des ensembles d'étiquettes fixes à la navigation dans une hiérarchie de granularité réutilisable et dérivée des données.