Semua artikel — korshunov.ai

Semua artikel Halaman 1 / 24

Tindak lanjut: DeepSeek V4 Flash di 2x RTX PRO 6000 menyelesaikan tugas coding nyata lebih cepat daripada Sonnet dan Opus, dengan kualitas sekitar setara Sonnet

Sebuah benchmark tindak lanjut mengevaluasi DeepSeek V4 Flash yang berjalan pada dua GPU RTX PRO 6000 menggunakan vLLM, membandingkan kinerjanya dalam tugas coding dunia nyata terhadap model berbasis API seperti Claude Sonnet dan Opus. Studi ini menemukan bahwa meskipun Opus dan Fable mempertahankan kualitas kode yang lebih unggul, DeepSeek V4 Flash mencapai kualitas sekitar setara Sonnet dengan waktu wall-clock yang jauh lebih cepat.

media r/LocalLLaMA · 5 jam lalu

Pemetaan Node Lokal - Mildlyinteresting

Penulis berbagi pengamatan tentang pemetaan dan pengarahan model lokal berdasarkan jalur aktivasi mereka selama konteks tertentu. Postingan ini menyoroti variasi dalam jalur aktivasi di berbagai model saat menjawab serangkaian prompt batch.

media r/LocalLLaMA · 5 jam lalu

Mengaktifkan mode P2P pada dual RTX 3090; angka sebelum/sesudah (Qwen3.6-27B INT4, konteks 256k)

Seorang pengguna menguji dampak mengaktifkan mode Peer-to-Peer (P2P) pada setup dual NVIDIA RTX 3090 dengan tautan PCIe 4.0 8x/8x. Benchmark tersebut melibatkan lima putaran dengan nvbandwidth dan skrip tes decode/soak standar untuk model Qwen3.6-27B INT4 dengan jendela konteks 256k.

media r/LocalLLaMA · 5 jam lalu

Organisasi HF Palantir Tidak Memiliki Model atau Dataset Open-Source

Sebuah postingan Reddit menyoroti bahwa organisasi Palantir di Hugging Face saat ini tidak memiliki model open-source dan dataset publik. Pengamatan ini dibagikan oleh clem 🤗 di X, menunjukkan kurangnya kontribusi meskipun perusahaan hadir di platform tersebut.

media r/LocalLLaMA · 5 jam lalu

GLM5.2 pada 5x Pro 6000 dan satu 5090, perjalanan yang mahal

Seorang pengguna mendetailkan proses peningkatan perangkat kerasnya yang ekstensif untuk menjalankan model GLM 5.2 secara lokal, berakhir dengan setup lima GPU AMD Radeon Pro W6800 dan satu NVIDIA RTX 5090.

github llama.cpp · 6 jam lalu

Rilis llama.cpp b9861 dengan pembaruan cpp-httplib

Proyek llama.cpp telah merilis versi b9861, yang mencakup pembaruan vendor ke cpp-httplib 0.49.0.

github llama.cpp · 7 jam lalu

Rilis llama.cpp b9862: Optimisasi CUDA dan biner multi-platform

Proyek llama.cpp telah merilis versi b9862, yang menampilkan optimasi kinerja untuk operasi gated_delta_net dan menyediakan biner pra-bangun untuk macOS, Linux, Windows, Android, dan openEuler.

github llama.cpp · 7 jam lalu

Rilis llama.cpp b9864: Interval ping SSE per-permintaan dan binaris platform

Rilis llama.cpp b9864 memperkenalkan perubahan pada penanganan Server-Sent Events (SSE) server, memungkinkan interval ping dikonfigurasi per-permintaan. Pembaruan ini memastikan bahwa operasi prefill yang lambat tidak memutus koneksi sehat dengan memping stream diam setiap 1 detik dan memutusnya hanya setelah 3 detik.

media r/LocalLLaMA · 7 jam lalu

GLM-5.2 NVFP4 pada empat DGX Sparks — misteri MTP terpecahkan, kini ~24 tok/s pada konteks 128K

Investigasi lanjutan tentang menjalankan GLM-5.2 NVFP4 pada empat node DGX Spark menyelesaikan bottleneck kinerja sebelumnya di mana tingkat penerimaan tinggi tidak mungkin dicapai pada konteks 128K.

media r/LocalLLaMA · 8 jam lalu

Claude Code mengaktifkan mekanisme saat ANTHROPIC_BASE_URL ditetapkan

Seorang peneliti telah mengidentifikasi mekanisme dalam Claude Code yang diaktifkan ketika pengguna menetapkan variabel lingkungan ANTHROPIC_BASE_URL, yang biasanya digunakan untuk model lokal. Proses ini melibatkan dekripsi dan penguraian daftar nama host mencurigakan yang tertanam dalam kode perangkat lunak.

media r/LocalLLaMA · 8 jam lalu

Deepseek merilis terobosan BESAR lainnya - DSpark. Jauh lebih cepat dari MTP [Video penjelasannya]

Seorang pengguna Reddit membagikan tautan video mengenai terobosan DeepSeek baru yang disebut DSpark, yang digambarkan jauh lebih cepat daripada MTP.

media Hugging Face Forums · 8 jam lalu

Pengguna meminta tinjauan terhadap Space Hugging Face yang ditandai sebagai abusif

Seorang pengguna bernama Bitguy07 melaporkan bahwa Space Hugging Face mereka, "Bitguy07/browser-automation-studio", secara otomatis dijeda dan ditandai sebagai abusif segera setelah setiap build berhasil. API runtime mengembalikan status "PAUSED" dengan pesan kesalahan "Flagged as abusive", yang mencegah kontainer dimulai.

media Hugging Face Forums · 8 jam lalu

Validasi Lintas-Domain dari Kerangka Kerja Self-Organisasi Terpadu

Kerangka kerja matematika terpadu untuk self-organisasi dalam sistem kompleks menerima dukungan eksperimental dari dua domain fisik independen: dekoherensi kuantum dan transisi kondensat Bose-Einstein klasik. Studi ini melaporkan bahwa kopling non-lokal bertindak sebagai "penguat kritis", menghasilkan efek maksimum pada batas fase di mana sistem paling sensitif.

media Hugging Face Forums · 9 jam lalu

Masalah AGI: Kecerdasan tidak meniru seperti burung beo

Artikel ini berargumen bahwa sistem AI saat ini menderita "kesalahan kategori" mendasar yang berakar pada reduksionisme, mencegah mereka mencapai Kecerdasan Umum Buatan (AGI) yang sejati. Artikel ini berpendapat bahwa peniruan yang canggih tidak dapat menjembatani kesenjangan antara respons simulasi dan pemahaman yang sebenarnya.

media Hugging Face Forums · 9 jam lalu

Octopus Smart Membangun Sistem Analisis Piala Dunia Berbasis AI

Octopus Smart sedang mengembangkan Octopus Football, sebuah platform analitik untuk Piala Dunia dan turnamen profesional yang memanfaatkan orkestrasi kecerdasan pertandingan berbasis AI. Sistem ini menggabungkan model analitik prediktif dengan agen kecerdasan data untuk menyediakan pemodelan kinerja tim, peringkat pemain, dan ringkasan pertandingan otomatis.

arxiv arXiv cs.CL · 9 jam lalu

Tantangan dan Rekomendasi untuk LLM-as-a-Judge dalam Pengaturan Multibahasa

Artikel ini meneliti keandalan penggunaan Model Bahasa Besar sebagai evaluator dalam konteks multibahasa dan bahasa dengan sumber daya rendah, menyoroti kesenjangan signifikan dalam praktik saat ini. Penulis menganalisis 650 makalah ACL Anthology untuk mengidentifikasi inkonsistensi dan ketergantungan berlebihan pada model judge tunggal.

arxiv arXiv cs.CL · 10 jam lalu

AgenticSTS: Testbed Memori Terbatas untuk Agen LLM Horison Panjang

Para penulis memperkenalkan AgenticSTS, sebuah testbed yang dirancang untuk mempelajari bagaimana lapisan memori eksplisit membentuk keputusan agen LLM horison panjang. Ini memanfaatkan kontrak memori terbatas dalam game Slay the Spire 2 di mana prompt dirakit melalui pengambilan berbasis tipe daripada menambahkan transkrip mentah.

arxiv arXiv cs.CL · 10 jam lalu

BamiBERT: Model Bahasa Baru Berbasis BERT untuk Bahasa Vietnam

Para peneliti memperkenalkan BamiBERT, model bahasa pra-pelatihan berbasis BERT baru untuk bahasa Vietnam yang dirancang untuk mengatasi keterbatasan standar saat ini, PhoBERT. Dilatih dari awal pada korpus 129GB selama 20 epoch, model ini mendukung panjang konteks yang diperluas hingga 2048 token dan beroperasi langsung pada input mentah tanpa segmentasi kata eksternal.

arxiv arXiv cs.CL · 10 jam lalu

CheckRLM: Pengecekan Koherensi Pengetahuan-Pemikiran yang Efektif dalam Penalaran Berbasis Retrieval

Para penulis mengusulkan CheckRLM, sebuah kerangka kerja yang meningkatkan keandalan Model Bahasa Penalaran dengan menggunakan Generasi Berbasis Retrieval untuk memeriksa dan memperbaiki kesalahan faktual secara tepat waktu selama inferensi. Pendekatan ini mengekstrak klaim faktual dari rantai penalaran untuk mengidentifikasi inkonsistensi dan menerapkan koreksi berbiaya minimal melalui pengetahuan eksternal.

arxiv arXiv cs.CL · 10 jam lalu

HERMES: Substrat Pelabelan Multi-Granularitas untuk Campuran Data Pra-pelatihan

HERMES adalah substrat pelabelan yang diturunkan dari data yang menggunakan Transformasi Semantik Terlatih dan kuantisasi vektor residual 3 tahap untuk memberi anotasi dokumen ke dalam kode kasar-hingga-halus dengan hingga sekitar 130k sel.