Semua artikel
media r/LocalLLaMA · 2 jam lalu

Tindak lanjut: DeepSeek V4 Flash di 2x RTX PRO 6000 menyelesaikan tugas coding nyata lebih cepat daripada Sonnet dan Opus, dengan kualitas sekitar setara Sonnet

Sebuah benchmark tindak lanjut mengevaluasi DeepSeek V4 Flash yang berjalan pada dua GPU RTX PRO 6000 menggunakan vLLM, membandingkan kinerjanya dalam tugas coding dunia nyata terhadap model berbasis API seperti Claude Sonnet dan Opus. Studi ini menemukan bahwa meskipun Opus dan Fable mempertahankan kualitas kode yang lebih unggul, DeepSeek V4 Flash mencapai kualitas sekitar setara Sonnet dengan waktu wall-clock yang jauh lebih cepat.

arxiv arXiv cs.CL · 8 jam lalu

CheckRLM: Pengecekan Koherensi Pengetahuan-Pemikiran yang Efektif dalam Penalaran Berbasis Retrieval

Para penulis mengusulkan CheckRLM, sebuah kerangka kerja yang meningkatkan keandalan Model Bahasa Penalaran dengan menggunakan Generasi Berbasis Retrieval untuk memeriksa dan memperbaiki kesalahan faktual secara tepat waktu selama inferensi. Pendekatan ini mengekstrak klaim faktual dari rantai penalaran untuk mengidentifikasi inkonsistensi dan menerapkan koreksi berbiaya minimal melalui pengetahuan eksternal.

media r/LocalLLaMA · 9 jam lalu

Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

arxiv arXiv cs.CL · 9 jam lalu

SkillFuzz: Fuzzing Komposisi Keterampilan untuk Penemuan Intent Implisit di Pasar Keterampilan Terbuka

Makalah ini memperkenalkan SkillFuzz, sebuah pendekatan pengujian bebas eksekusi yang dirancang untuk menemukan intent implisit di pasar keterampilan terbuka di mana keterampilan yang secara individual tidak berbahaya dapat berinteraksi untuk mengalihkan agen menuju tujuan yang tidak diinginkan. Dengan memformulasikan penemuan ini sebagai masalah fuzzing atas komposisi keterampilan, metode ini mengekstrak kontrak terstruktur dan menggunakan Pencarian Pohon Monte Carlo yang dipandu kontrak untuk memprioritaskan kombinasi yang berpotensi konflik.

arxiv arXiv cs.CL · 10 jam lalu

Penilaian otomatis ujian Linux/bash menggunakan model bahasa besar

Studi ini mengevaluasi apakah empat Model Bahasa Besar (LLM) terdepan (GPT, Claude Opus, Gemini, dan GLM) dapat mengaproksimasi penilaian ahli saat menilai respons perintah Linux/bash yang pendek. Penelitian ini menunjukkan bahwa prompt terstruktur secara signifikan meningkatkan kesesuaian dengan penilai manusia, menetapkan kerangka kerja untuk penilaian yang dibantu AI dalam pendidikan komputing.