Semua artikel
media r/LocalLLaMA · baru saja Langsung

Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

media r/LocalLLaMA · 17 jam lalu

Bonsai-8B 1-bit dari PrismML mengalahkan IBM Granite pada pemanggilan alat CPU dengan tata bahasa

Sebuah benchmark model Bonsai-8B 1-bit dari PrismML melawan Granite dari IBM dan LLM lainnya mengungkapkan bahwa Bonsai-8B mencapai akurasi pemanggilan alat tertinggi saat menggunakan decoding yang dibatasi oleh tata bahasa. Uji ini, yang dilakukan pada CPU menggunakan llama.cpp, menyoroti peran kritis batasan output dalam memungkinkan model kuantisasi kecil berfungsi secara efektif untuk tugas agen.