Semua artikel
media r/LocalLLaMA · 3 jam lalu

Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

media Hugging Face Forums · 13 jam lalu

Benchmarking Solo dan MoA pada berbagai tugas

Artikel ini menyajikan hasil benchmark yang membandingkan model individu dengan konfigurasi Mixture-of-Agents (MoA) di enam tugas: Bug, Tool, Arch, Clinical, DLQ, dan rata-rata keseluruhan. Harness evaluasi menggunakan Hermes Agent v0.18, dengan skor dihasilkan oleh ChatGPT 5.5 dan Claude opus 4.8 berdasarkan rubrik yang menimbang Benar, Kelengkapan, Kedalaman, Dapat Ditindaklanjuti, Kejelasan, dan Kepercayaan.

media r/LocalLLaMA · 15 jam lalu

Analisis 2.3k Aplikasi AI Lokal Mengungkap 82 Kategori dan Berbagai Kasus Penggunaan

Sebuah analisis terhadap Mac App Store mengidentifikasi 2.259 aplikasi AI lokal dari lebih dari 20.000 entri yang di-scrape, menyoroti ekosistem alat niche yang berkembang yang membungkus model dengan alur kerja spesifik. Survei ini mencakup 82 kategori berbeda, mulai dari tugas umum seperti transkripsi dan OCR hingga fungsi khusus seperti styling pakaian dan bantuan kesehatan hewan peliharaan.