Semua artikel
media Hugging Face Forums · 10 hari lalu

Kemampuan Tidak Ada di Bobot: Hasil Empiris Negatif pada Proyeksi Bobot MLP

Sebuah studi empiris menemukan bahwa memproyeksikan bobot MLP dari satu model transformer ke model lain gagal mentransfer kemampuan semantik. Setiap varian yang diuji menunjukkan kinerja lebih buruk daripada model host yang tidak dimodifikasi, mengindikasikan keterbatasan struktural dalam proyeksi bobot. Hasil ini menantang klaim publik mengenai kemampuan model berdasarkan benchmark, menunjukkan bahwa klaim tersebut tidak mencerminkan geometri bobot internal yang sebenarnya.

media Hugging Face Forums · 10 hari lalu

The Clockwork Dark: Mesin Naratif-RPG AI-Lokal Pertama

The Clockwork Dark adalah mesin naratif-RPG yang memprioritaskan penggunaan lokal dan didorong oleh AI, menggunakan mesin keadaan deterministik untuk menyelesaikan semua mekanik permainan. Mesin ini menampilkan dua LLM otonom yang menceritakan kisah, dengan satu berperan sebagai suara dunia yang sabar dan lainnya sebagai asisten bergaya dewa yang tidak dapat diandalkan. Permainan ini menawarkan pemain pilihan: melawan korupsi supranatural yang mengancam atau menjalani kehidupan tenang di sebuah toko roti, dengan kedua jalur tersebut dianggap sebagai akhir cerita yang valid.

media Hugging Face Forums · 10 hari lalu

Terjebak terus-menerus pada 'starting' dengan kontainer Docker yang sedang berjalan

Seorang pengguna melaporkan bahwa kontainer Dockernya dengan R/Shiny di rocker/r2u berhasil dibangun dan menampilkan 'Listening on http://0.0.0.0:7860' dalam log, namun ruangannya tetap berada dalam status 'starting' dan tidak dapat diakses. Masalah ini berlanjut meskipun tidak ada kesalahan kode, dan pengguna tersebut mencari perhatian lebih luas, mencatat bahwa hal itu mungkin merupakan masalah sisi platform dengan Hugging Face.

media Hugging Face Forums · 10 hari lalu

Perbandingan debug skala kecil OLMo-core dengan graft Engram

Perbandingan pelatihan 200 langkah antara model dasar OLMo3 600M dan versi dengan graft Engram gaya DeepSeek menunjukkan loss pelatihan dan evaluasi yang lebih rendah, stabilisasi grad-norm yang lebih cepat, dan perilaku pembelajaran awal yang lebih baik. Graft Engram, disuntikkan ke lapisan 1 dan 5, meningkatkan parameter yang dapat dilatih menjadi ~1,7B tetapi hanya mempertahankan peningkatan 40k pada parameter aktif per token, menunjukkan penggunaan memori yang efisien.

media Hugging Face Forums · 10 hari lalu

LLM sebagai Akselerator Epistemik: Risikonya Bukan Hanya Halusinasi

LLM tidak hanya berhalusinasi; mereka memperkuat overconfidence epistemik manusia dengan mengubah hipotesis lemah menjadi klaim yang koheren dan rapi sebelum bukti diverifikasi. Ini menciptakan risiko kepastian prematur dalam penelitian, kebijakan, dan domain lainnya, bukan karena model berbohong, tetapi karena mereka mempercepat kecenderungan manusia untuk lebih menyukai penjelasan yang elegan daripada ketidakpastian.