HERMES: Un sustrato de etiquetado multigranular para mezclas de datos de preentrenamiento

HERMES es un sustrato de etiquetado derivado de datos que utiliza una Transformación Semántica Aprendida y cuantización vectorial residual en 3 etapas para anotar documentos en un código de grueso a fino con hasta aproximadamente 130k celdas.

Permite el control de granularidad mediante la longitud del prefijo, superando las limitaciones de las etiquetas existentes que se comprometen con un solo eje semántico.
A granularidad gruesa, HERMES tiene un rendimiento comparable a los métodos de la familia KMeans en métricas estándar de agrupamiento.
En el preentrenamiento de 1B parámetros y 25B tokens, combinar el contraste de reglas de la Etapa-2 con cobertura de subbuckets iguales elevó la macro-media de 16 tareas en +0.0253.
La ganancia de rendimiento desapareció a niveles más finos donde los conjuntos de candidatos se contrajeron aproximadamente 5 veces.

HERMES reformula el diseño de mezclas de datos: de elegir entre conjuntos de etiquetas fijas a navegar una jerarquía de granularidad reutilizable y derivada de datos.