HERMES: Um substrato de rotulagem multigranular para misturas de dados de pré-treinamento

HERMES é um substrato de rotulagem derivado de dados que usa uma Transformação Semântica Aprendida e quantização vetorial residual em 3 estágios para anotar documentos em um código de grosseiro a fino com até aproximadamente 130k células.

Permite controle de granularidade via comprimento do prefixo, superando as limitações de rótulos existentes que se comprometem com um único eixo semântico.
Em granularidade grosseira, o HERMES tem desempenho comparável aos métodos da família KMeans em métricas padrão de agrupamento.
No pré-treinamento de 1B parâmetros e 25B tokens, combinar contraste de regras do Estágio-2 com cobertura igual de subbuckets elevou a média macro de 16 tarefas em +0.0253.
O ganho de desempenho desapareceu em níveis mais finos onde os conjuntos de candidatos contraíram aproximadamente 5x.

O HERMES reformula o design de misturas de dados: de escolher entre conjuntos fixos de rótulos para navegar uma hierarquia de granularidade reutilizável e derivada de dados.