Un nouveau concept appelé UCTF (Universal Compressed Training Format) propose une couche de médiation pour adresser la redondance sémantique dans l'entraînement des LLM multilingues en compressant diverses langues dans un format de token unifié et indépendant de la langue.

  • Le pipeline ingère les données brutes, extrait le sens via des embeddings interlinguistiques et les encode dans une représentation dense optimisée pour la machine pour l'entraînement.
  • UCTF étend les concepts de Byte Latent Transformer à travers les langues et utilise des outils existants comme LaBSE ou mE5 pour la cartographie vectorielle sémantique.
  • Les avantages potentiels incluent une réduction du gaspillage de stockage et de calcul, des cycles d'entraînement plus rapides et un meilleur soutien pour les langues peu dotées.

L'auteur cherche une critique technique sur la faisabilité d'atteindre des ratios de compression élevés sans dégrader les signaux d'entraînement et si les pipelines de fine-tuning standard restent compatibles.