HERMES: Substrat Pelabelan Multi-Granularitas untuk Campuran Data Pra-pelatihan

HERMES adalah substrat pelabelan yang diturunkan dari data yang menggunakan Transformasi Semantik Terlatih dan kuantisasi vektor residual 3 tahap untuk memberi anotasi dokumen ke dalam kode kasar-hingga-halus dengan hingga sekitar 130k sel.

Ini memungkinkan kontrol granularitas melalui panjang awalan, mengatasi keterbatasan label yang ada yang berkomitmen pada satu sumbu semantik.
Pada granularitas kasar, HERMES berkinerja setara dengan metode keluarga KMeans pada metrik pengelompokan standar.
Dalam pra-pelatihan 1 miliar parameter, 25 miliar token, menggabungkan kontras aturan Tahap-2 dengan cakupan sub-bucket yang sama meningkatkan rata-rata makro kemampuan 16 tugas sebesar +0,0253.
Kenaikan kinerja menghilang pada tingkat yang lebih halus di mana kandidat pool menyusut sekitar 5x.

HERMES mendefinisikan ulang desain campuran data dari memilih antara set label tetap menuju menavigasi hierarki granularitas yang dapat digunakan kembali dan diturunkan dari data.