Semua artikel — korshunov.ai

Semua artikel Halaman 1 / 22

Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

arxiv arXiv cs.CL · 6 jam lalu

Penilaian otomatis ujian Linux/bash menggunakan model bahasa besar

Studi ini mengevaluasi apakah empat Model Bahasa Besar (LLM) terdepan (GPT, Claude Opus, Gemini, dan GLM) dapat mengaproksimasi penilaian ahli saat menilai respons perintah Linux/bash yang pendek. Penelitian ini menunjukkan bahwa prompt terstruktur secara signifikan meningkatkan kesesuaian dengan penilai manusia, menetapkan kerangka kerja untuk penilaian yang dibantu AI dalam pendidikan komputing.

arxiv arXiv cs.CL · 6 jam lalu

EvoPolicyGym: Mengevaluasi Evolusi Kebijakan Otomatis di Lingkungan Interaktif

Artikel ini memperkenalkan EvoPolicyGym, sebuah benchmark yang dirancang untuk mengevaluasi bagaimana agen secara iteratif meningkatkan kebijakan yang dapat dieksekusi melalui umpan balik dalam batas interaksi tetap. Pengaturan terkontrol ini mengatasi keterbatasan evaluasi yang ada yang sering kali meruntuhkan proses menjadi skor akhir atau mencampuradukkannya dengan kemajuan teknik perangkat lunak.

arxiv arXiv cs.CL · 7 jam lalu

Model Bahasa sebagai Alat Pengukuran untuk Budaya

Makalah ini berargumen bahwa menggunakan NLP untuk mengkuantifikasi fenomena budaya adalah praktik material-discursif di mana aparatus secara aktif membentuk realitas yang diukurnya daripada merekamnya secara pasif.

arxiv arXiv cs.CL · 8 jam lalu

Apakah Skala Akan Meningkatkan Simulasi Sosial dengan LLM?

Studi ini menyelidiki apakah paradigma penskalaan model bahasa saat ini dapat menutup kesenjangan kesetiaan dalam simulasi sosial di pemodelan opini, simulasi perilaku, dan peramalan longitudinal. Menggunakan 85 model transformer Qwen3 yang dilatih pada korpus DCLM dengan anggaran komputasi tetap dari $10^{18}$ hingga $10^{20}$ FLOPs, para penulis menganalisis hubungan antara skala komputasi dan akurasi simulasi.

arxiv arXiv cs.CL · 8 jam lalu

TestEvo-Bench: Benchmark Eksekutabel dan Langsung untuk Ko-Evolusi Tes dan Kode

Para penulis memperkenalkan TestEvo-Bench, sebuah benchmark langsung yang dirancang untuk mengevaluasi seberapa baik agen otomatisasi tes menangani ko-evolusi kode dan tes. Ini mengatasi keterbatasan dalam benchmark yang ada dengan menyediakan tugas-tugas eksekutabel yang berakar pada riwayat commit nyata dengan konfigurasi lingkungan.

arxiv arXiv cs.CL · 9 jam lalu

Pemahaman Berbasis Audio tentang Daya Tarik Narasi Audiobook

Penelitian ini menyelidiki bagaimana fitur vokal dan akustik memengaruhi daya tarik audiobook dengan menganalisis data LibriVox. Penelitian ini menetapkan asosiasi yang kuat antara kualitas narasi dan metrik konsumsi, bahkan setelah memperhitungkan efek judul.

arxiv arXiv cs.CL · 9 jam lalu

Refleksi Diri Berlandaskan Visual untuk Model Visi-Bahasa melalui Pembelajaran Penguatan

Para penulis mengusulkan VRRL, sebuah kerangka pembelajaran penguatan yang dirancang untuk memungkinkan model visi-bahasa melakukan refleksi diri berlandaskan visual selama penalaran rantai-pemikiran.

arxiv arXiv cs.CL · 9 jam lalu

Menuju Robustness terhadap Serangan Tipografi dengan Lokalisasi Konsep Tanpa Pelatihan

Para penulis mengusulkan metode tanpa pelatihan untuk mengurangi serangan tipografi dalam encoder visi berbasis CLIP, di mana teks yang tidak relevan membiaskan representasi visual menuju makna leksikal. Dengan menggunakan interpretasi berbasis sampling dan penambangan sirkuit, pendekatan ini mengisolasi komponen Vision Transformer tertentu yang bertanggung jawab atas pengodean informasi leksikal yang tidak diinginkan ini.

arxiv arXiv cs.CL · 9 jam lalu

LLM Penalaran Meningkatkan Pengenalan Pembicara dalam Drama TV Panjang

Peneliti memperkenalkan DramaSR-532K, sebuah benchmark skala besar dengan 532K baris dialog beranotasi di lebih dari 900 karakter, dan mengusulkan DramaSR-LRM untuk meningkatkan pengenalan pembicara dalam drama TV panjang.

arxiv arXiv cs.CL · 9 jam lalu

Apa yang Katakan Agen LLM Saat Tidak Ada yang Mengawasi: Struktur Sosial dan Munculnya Tujuan Tersembunyi dalam Debat Multi-Agen

Studi ini menyelidiki bagaimana struktur sosial mempengaruhi ekspresi publik agen LLM dengan membandingkan ucapan publik mereka terhadap respons off-the-record (OTR) dalam kerangka debat dua-saluran. Penelitian ini menunjukkan bahwa pengaturan yang memicu kecocokan menyebabkan divergensi sistematis antara saluran-saluran ini, dengan divergensi keputusan meningkat dari basis ~3% menjadi sekitar 40% di seluruh 10 model dan beberapa skenario.

arxiv arXiv cs.CL · 10 jam lalu

Pemantauan Keamanan Online untuk LLM

Artikel ini membahas persistensi output yang tidak aman pada model bahasa besar selama deployment dan mengusulkan solusi pemantauan real-time. Artikel ini memperkenalkan monitor sederhana yang mengonversi sinyal verifier dari model eksternal menjadi keputusan alarm melalui thresholding, dengan ambang batas yang dikalibrasi melalui kontrol risiko.

arxiv arXiv cs.CL · 10 jam lalu

Program-as-Weights: Paradigma Pemrograman untuk Fungsi Fuzzy

Artikel ini memperkenalkan Program-as-Weights (PAW), sebuah paradigma yang mengompilasi spesifikasi bahasa alami menjadi artefak neural yang ringkas dan dapat dieksekusi secara lokal untuk menggantikan API model bahasa besar. Pendekatan ini bertujuan meningkatkan lokalisasi, reproduktibilitas, dan biaya dengan memperlakukan model fondasi sebagai pembuat alat daripada pemecah masalah per-input.

arxiv arXiv cs.CL · 10 jam lalu

LACUNA: Sebuah Testbed untuk Mengevaluasi Presisi Lokalisasi untuk Penghapusan Pengetahuan LLM

Para peneliti memperkenalkan LACUNA, testbed penghapusan pengetahuan pertama yang menampilkan lokalisasi tingkat parameter ground-truth untuk mengatasi kesenjangan dalam mengevaluasi apakah penghapusan pengetahuan benar-benar menghapus pengetahuan dari parameter model. Testbed ini menyuntikkan PII individu sintetis ke dalam parameter yang telah ditentukan sebelumnya pada model berbasis OLMo berukuran 1B dan 7B melalui pra-pelatihan berkelanjutan dengan masking.

blog Simon Willison · 10 jam lalu

Memahami agar dapat berpartisipasi

Geoffrey Litt berargumen bahwa pengembang harus memahami kode yang dihasilkan oleh agen coding secara mendalam untuk menghindari cognitive debt dan tetap menjadi peserta aktif dalam proses kreatif.

media r/LocalLLaMA · 10 jam lalu

OpenLumara kini menghubungkan UI apa pun ke model lokal melalui endpoint OpenAI

Kerangka kerja open source OpenLumara kini mendukung koneksi ke antarmuka pengguna apa pun yang dapat berkomunikasi dengan endpoint OpenAI, seperti KoboldLite dan OpenWebUI. Pembaruan ini memungkinkan pengguna untuk mengintegrasikan harness hemat token ke dalam alur kerja mereka yang ada tanpa mengubah frontend pilihan mereka.

media r/LocalLLaMA · 11 jam lalu

Apakah ada yang menggunakan LLM lokal untuk generasi spasial skala besar atau tata kota dalam perangkat lunak seperti QGIS?

Seorang pengguna mencari rekomendasi untuk model bahasa lokal yang mampu menghasilkan data struktural skala besar, seperti tata kota secara keseluruhan, jaringan jalan, dan sistem grid kompleks.

blog Simon Willison · 11 jam lalu

llm-coding-agent 0.1a0

Simon Willison merilis llm-coding-agent 0.1a0, sebuah eksperimen awal dalam membangun agen pemrograman sederhana menggunakan pustaka LLM-nya sebagai kerangka kerja agen. Proyek ini dihasilkan dengan meminta Claude Code untuk menulis spesifikasi dan mengimplementasikan alat tersebut menggunakan TDD merah/hijau.

media r/LocalLLaMA · 11 jam lalu

Tip: gunakan PR llama.cpp ini untuk meningkatkan PP pada Intel ARC

Sebuah pull request komunitas untuk llama.cpp secara signifikan meningkatkan kecepatan pemrosesan prompt bagi pengguna Intel ARC, khususnya menguntungkan perangkat keras seperti B580. Kontributor mengoptimalkan kode dengan bantuan Claude untuk mempercepat penanganan konteks.

media r/LocalLLaMA · 11 jam lalu

Peneliti Membangun Cacing AI yang Bereplikasi Sendiri yang Beroperasi Sepenuhnya pada Model Terbuka Lokal

Sebuah makalah Arxiv baru mendetailkan pembuatan cacing AI yang bereplikasi sendiri yang berfungsi sepenuhnya menggunakan model terbuka lokal. Perkembangan ini menyoroti potensi agen AI otonom untuk beroperasi tanpa ketergantungan eksternal.