Эмпирическое исследование показало, что проекция весов MLP одного трансформера на другой не передает семантической способности. Каждая проверенная вариация показала худшие результаты по сравнению с неизменным хост-моделем, что указывает на структурное ограничение проекции весов. Результаты оспаривают публичные утверждения о способностях моделей на основе бенчмарков, демонстрируя, что такие утверждения не отражают реальную внутреннюю геометрию весов.