Semua artikel — korshunov.ai

Semua artikel Halaman 1 / 22

media r/LocalLLaMA · 1 jam lalu Langsung

Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

arxiv arXiv cs.CL · 6 jam lalu

Apa yang Katakan Agen LLM Saat Tidak Ada yang Mengawasi: Struktur Sosial dan Munculnya Tujuan Tersembunyi dalam Debat Multi-Agen

Studi ini menyelidiki bagaimana struktur sosial mempengaruhi ekspresi publik agen LLM dengan membandingkan ucapan publik mereka terhadap respons off-the-record (OTR) dalam kerangka debat dua-saluran. Penelitian ini menunjukkan bahwa pengaturan yang memicu kecocokan menyebabkan divergensi sistematis antara saluran-saluran ini, dengan divergensi keputusan meningkat dari basis ~3% menjadi sekitar 40% di seluruh 10 model dan beberapa skenario.

arxiv arXiv cs.CL · 6 jam lalu

Pemantauan Keamanan Online untuk LLM

Artikel ini membahas persistensi output yang tidak aman pada model bahasa besar selama deployment dan mengusulkan solusi pemantauan real-time. Artikel ini memperkenalkan monitor sederhana yang mengonversi sinyal verifier dari model eksternal menjadi keputusan alarm melalui thresholding, dengan ambang batas yang dikalibrasi melalui kontrol risiko.

arxiv arXiv cs.CL · 6 jam lalu

Program-as-Weights: Paradigma Pemrograman untuk Fungsi Fuzzy

Artikel ini memperkenalkan Program-as-Weights (PAW), sebuah paradigma yang mengompilasi spesifikasi bahasa alami menjadi artefak neural yang ringkas dan dapat dieksekusi secara lokal untuk menggantikan API model bahasa besar. Pendekatan ini bertujuan meningkatkan lokalisasi, reproduktibilitas, dan biaya dengan memperlakukan model fondasi sebagai pembuat alat daripada pemecah masalah per-input.

arxiv arXiv cs.CL · 6 jam lalu

LACUNA: Sebuah Testbed untuk Mengevaluasi Presisi Lokalisasi untuk Penghapusan Pengetahuan LLM

Para peneliti memperkenalkan LACUNA, testbed penghapusan pengetahuan pertama yang menampilkan lokalisasi tingkat parameter ground-truth untuk mengatasi kesenjangan dalam mengevaluasi apakah penghapusan pengetahuan benar-benar menghapus pengetahuan dari parameter model. Testbed ini menyuntikkan PII individu sintetis ke dalam parameter yang telah ditentukan sebelumnya pada model berbasis OLMo berukuran 1B dan 7B melalui pra-pelatihan berkelanjutan dengan masking.

blog Simon Willison · 7 jam lalu

Memahami agar dapat berpartisipasi

Geoffrey Litt berargumen bahwa pengembang harus memahami kode yang dihasilkan oleh agen coding secara mendalam untuk menghindari cognitive debt dan tetap menjadi peserta aktif dalam proses kreatif.

media r/LocalLLaMA · 7 jam lalu

OpenLumara kini menghubungkan UI apa pun ke model lokal melalui endpoint OpenAI

Kerangka kerja open source OpenLumara kini mendukung koneksi ke antarmuka pengguna apa pun yang dapat berkomunikasi dengan endpoint OpenAI, seperti KoboldLite dan OpenWebUI. Pembaruan ini memungkinkan pengguna untuk mengintegrasikan harness hemat token ke dalam alur kerja mereka yang ada tanpa mengubah frontend pilihan mereka.

media r/LocalLLaMA · 7 jam lalu

Apakah ada yang menggunakan LLM lokal untuk generasi spasial skala besar atau tata kota dalam perangkat lunak seperti QGIS?

Seorang pengguna mencari rekomendasi untuk model bahasa lokal yang mampu menghasilkan data struktural skala besar, seperti tata kota secara keseluruhan, jaringan jalan, dan sistem grid kompleks.

blog Simon Willison · 7 jam lalu

llm-coding-agent 0.1a0

Simon Willison merilis llm-coding-agent 0.1a0, sebuah eksperimen awal dalam membangun agen pemrograman sederhana menggunakan pustaka LLM-nya sebagai kerangka kerja agen. Proyek ini dihasilkan dengan meminta Claude Code untuk menulis spesifikasi dan mengimplementasikan alat tersebut menggunakan TDD merah/hijau.

media r/LocalLLaMA · 7 jam lalu

Tip: gunakan PR llama.cpp ini untuk meningkatkan PP pada Intel ARC

Sebuah pull request komunitas untuk llama.cpp secara signifikan meningkatkan kecepatan pemrosesan prompt bagi pengguna Intel ARC, khususnya menguntungkan perangkat keras seperti B580. Kontributor mengoptimalkan kode dengan bantuan Claude untuk mempercepat penanganan konteks.

media r/LocalLLaMA · 8 jam lalu

Peneliti Membangun Cacing AI yang Bereplikasi Sendiri yang Beroperasi Sepenuhnya pada Model Terbuka Lokal

Sebuah makalah Arxiv baru mendetailkan pembuatan cacing AI yang bereplikasi sendiri yang berfungsi sepenuhnya menggunakan model terbuka lokal. Perkembangan ini menyoroti potensi agen AI otonom untuk beroperasi tanpa ketergantungan eksternal.

media r/LocalLLaMA · 8 jam lalu

Menuju Generasi Kernel HIP yang Lebih Baik untuk GPU AMD: Data Sintetis, Pencarian Multi-Agen, dan Pembelajaran Penguatan

Artikel dari blog Scaling Intelligence Stanford ini membahas metode untuk meningkatkan generasi kernel HIP untuk GPU AMD menggunakan data sintetis, pencarian multi-agen, dan pembelajaran penguatan.

lab ByteDance Seed (HF) · 8 jam lalu

ByteDance-Seed/PAR: Checkpoint Pemodelan Autoregresif Protein

Repositori ini menyediakan checkpoint model untuk Pemodelan Autoregresif Protein melalui Generasi Struktur Multiskala, yang diterima sebagai presentasi Oral di ICML 2026.

lab Claude Code Releases · 8 jam lalu

Catatan Rilis Claude Code v2.1.199

Pembaruan Claude Code v2.1.199 menangani banyak masalah stabilitas dan kegunaan, termasuk perbaikan untuk kesalahan sertifikat SSL, penanganan respons streaming, dan manajemen agen latar belakang.

lab Anthropic News · 8 jam lalu

Anthropic merinci langkah keamanan siber Fable 5 dan kerangka jailbreak

Anthropic telah mendistribusikan ulang Claude Fable 5 secara global dan menerbitkan informasi terperinci mengenai klasifikator keamanan siber serta kerangka tingkat keparahan jailbreak AI yang diusulkan. Perusahaan ini bertujuan untuk menetapkan terminologi yang konsisten dalam membahas risiko jailbreak dengan pemerintah, sambil mengundang masukan dari komunitas yang lebih luas.

media r/LocalLLaMA · 9 jam lalu

Dual R9700: Rumus terbaik untuk Qwen3.6 27B?

Seorang pengguna menyelidiki pengoptimalan model Qwen3.6-27B pada setup dual AMD Radeon R9700 menggunakan llama.cpp, membandingkan kinerja antara backend Vulkan dan ROCm.

media r/LocalLLaMA · 9 jam lalu

Kernel WebGPU Gemma 4 Mencapai 255 tok/s

Xenova telah merilis kernel WebGPU untuk Gemma 4, mencapai kinerja 255 token per detik. Optimasi ini memungkinkan model padat berjalan dengan kecepatan melebihi 100 T/s di browser web.

blog Simon Willison · 9 jam lalu

Menggunakan DSPy untuk mengevaluasi dan meningkatkan prompt sistem SQL Agen Datasette

Simon Willison memanfaatkan Claude Code dengan model Fable 5 untuk mengotomatisasi evaluasi dan optimisasi prompt sistem untuk Agen Datasette, khususnya menargetkan fitur eksekusi kueri SQL hanya-baca. Proses ini melibatkan pemasangan alpha terbaru Datasette dan DSPy untuk mengidentifikasi kelemahan dalam cara agen menangani informasi skema.

media r/LocalLLaMA · 9 jam lalu

Perintis AI Nvidia tolak AGI, bandingkan OpenAI dan Anthropic dengan AOL

Seorang tokoh terkemuka dari Nvidia menyatakan bahwa ia tidak percaya pada Kecerdasan Umum Buatan (AGI) dan berargumen bahwa fokus industri harus beralih ke model open-source yang disesuaikan untuk bisnis.

media r/LocalLLaMA · 10 jam lalu

Benchmark lokal dengan RTX 3090 - Qwen3.6 27b vs Ornith

Seorang pengguna membandingkan Qwen3.6 27b, Gemma4 26B A4B QAT, dan Ornith1.0 35B MoE menggunakan kerangka kerja inspect-ai pada RTX 3090 untuk mengevaluasi kinerja model lokal. Pengujian mengungkapkan hasil yang beragam di berbagai benchmark pengetahuan umum, grounding, dan pemrograman, dengan Qwen3.6 umumnya memimpin dalam skor sementara Ornith menunjukkan kekuatan di area tertentu seperti DROP.