media Hugging Face Forums · 10 hari lalu · open_models

Kemampuan Tidak Ada di Bobot: Hasil Empiris Negatif pada Proyeksi Bobot MLP

Diterjemahkan dari English → Bahasa Indonesia

Sebuah studi empiris menemukan bahwa memproyeksikan bobot MLP dari satu model transformer ke model lain gagal mentransfer kemampuan semantik. Setiap varian yang diuji menunjukkan kinerja lebih buruk daripada model host yang tidak dimodifikasi, mengindikasikan keterbatasan struktural dalam proyeksi bobot. Hasil ini menantang klaim publik mengenai kemampuan model berdasarkan benchmark, menunjukkan bahwa klaim tersebut tidak mencerminkan geometri bobot internal yang sebenarnya.

Kepentingan 1/3 Kepercayaan 1/3 Hugging Face Forums Evaluation & benchmarks Reasoning models

Baca aslinya