La capacité n'est pas dans les poids : résultat empirique négatif sur la projection des poids MLP

Une étude empirique a révélé que la projection des poids MLP d'un modèle transformer vers un autre échoue à transférer la capacité sémantique. Chaque variante testée a obtenu de moins bons résultats que le modèle hôte non modifié, indiquant une limitation structurelle dans la projection des poids. Ces résultats remettent en question les affirmations publiques sur les capacités des modèles basées sur des benchmarks, montrant que de telles affirmations ne reflètent pas la géométrie interne réelle des poids.