ある実証的研究により、1つのTransformerモデルから別のモデルへのMLP重みの投影が意味的能力を転送できないことが判明しました。テストされたすべての変体が未変更のホストモデルよりも劣ったパフォーマンスを示し、重み投影に構造的な制限があることを示唆しています。この結果はベンチマークに基づくモデル能力に関する公的な主張に疑問を投げかけ、そのような主張が実際の内部重みの幾何学を反映していないことを示しています。
能力は重みにない:MLP重み投影に関する実証的な否定的結果
翻訳元 English → 日本語