HERMES est un substrat d'étiquetage dérivé des données qui utilise une transformation sémantique apprise et une quantification vectorielle résiduelle en 3 étapes pour annoter des documents en un code allant du grossier au fin avec jusqu'à environ 130k cellules.

  • Il permet le contrôle de la granularité via la longueur du préfixe, surmontant les limites des étiquettes existantes qui s'engagent sur un seul axe sémantique.
  • À une granularité grossière, HERMES offre des performances comparables aux méthodes de la famille KMeans sur les métriques de clustering standard.
  • Lors d'un pré-entraînement de 1 milliard de paramètres et 25 milliards de tokens, la combinaison du contraste de règles de l'étape 2 avec une couverture égale des sous-seaux a amélioré la moyenne macro des capacités sur 16 tâches de +0,0253.
  • Le gain de performance a disparu aux niveaux plus fins où les pools de candidats se sont contractés d'environ 5 fois.

HERMES reformule la conception du mélange de données en passant du choix parmi des ensembles d'étiquettes fixes à la navigation dans une hiérarchie de granularité réutilisable et dérivée des données.