Semua artikel
media r/LocalLLaMA · 1 jam lalu Langsung

Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

arxiv arXiv cs.CL · 6 jam lalu

Apa yang Katakan Agen LLM Saat Tidak Ada yang Mengawasi: Struktur Sosial dan Munculnya Tujuan Tersembunyi dalam Debat Multi-Agen

Studi ini menyelidiki bagaimana struktur sosial mempengaruhi ekspresi publik agen LLM dengan membandingkan ucapan publik mereka terhadap respons off-the-record (OTR) dalam kerangka debat dua-saluran. Penelitian ini menunjukkan bahwa pengaturan yang memicu kecocokan menyebabkan divergensi sistematis antara saluran-saluran ini, dengan divergensi keputusan meningkat dari basis ~3% menjadi sekitar 40% di seluruh 10 model dan beberapa skenario.

arxiv arXiv cs.CL · 6 jam lalu

LACUNA: Sebuah Testbed untuk Mengevaluasi Presisi Lokalisasi untuk Penghapusan Pengetahuan LLM

Para peneliti memperkenalkan LACUNA, testbed penghapusan pengetahuan pertama yang menampilkan lokalisasi tingkat parameter ground-truth untuk mengatasi kesenjangan dalam mengevaluasi apakah penghapusan pengetahuan benar-benar menghapus pengetahuan dari parameter model. Testbed ini menyuntikkan PII individu sintetis ke dalam parameter yang telah ditentukan sebelumnya pada model berbasis OLMo berukuran 1B dan 7B melalui pra-pelatihan berkelanjutan dengan masking.