Le projet UCTF a été restructuré d'une proposition unique en un programme de recherche ouvert et axé sur les hypothèses, visant à déterminer si des représentations intermédiaires natives aux machines peuvent réduire la redondance sémantique interlangues dans l'entraînement d'IA multilingue.

Le projet est organisé autour de cinq articles distincts : mesurer la redondance sémantique dans les corpus multilingues, caractériser les connaissances universelles par rapport aux connaissances spécifiques à une langue, définir les exigences de conception pour la représentation, développer un prototype et valider les performances initiales d'entraînement. L'initiative fonctionne selon les principes de la recherche ouverte, s'engageant à publier tous les résultats indépendamment du résultat et invitant la communauté à fournir des retours sur les ensembles de données, les benchmarks et la méthodologie.

Cette approche par étapes permet aux travaux antérieurs de conserver leur valeur même si les étapes ultérieures échouent, garantissant que le projet évolue sur la base de preuves empiriques plutôt que d'hypothèses.