Semua artikel — korshunov.ai

Semua artikel Halaman 1 / 22

Tantangan dan Rekomendasi untuk LLM-as-a-Judge dalam Pengaturan Multibahasa

Artikel ini meneliti keandalan penggunaan Model Bahasa Besar sebagai evaluator dalam konteks multibahasa dan bahasa dengan sumber daya rendah, menyoroti kesenjangan signifikan dalam praktik saat ini. Penulis menganalisis 650 makalah ACL Anthology untuk mengidentifikasi inkonsistensi dan ketergantungan berlebihan pada model judge tunggal.

arxiv arXiv cs.CL · 2 jam lalu

AgenticSTS: Testbed Memori Terbatas untuk Agen LLM Horison Panjang

Para penulis memperkenalkan AgenticSTS, sebuah testbed yang dirancang untuk mempelajari bagaimana lapisan memori eksplisit membentuk keputusan agen LLM horison panjang. Ini memanfaatkan kontrak memori terbatas dalam game Slay the Spire 2 di mana prompt dirakit melalui pengambilan berbasis tipe daripada menambahkan transkrip mentah.

arxiv arXiv cs.CL · 2 jam lalu

BamiBERT: Model Bahasa Baru Berbasis BERT untuk Bahasa Vietnam

Para peneliti memperkenalkan BamiBERT, model bahasa pra-pelatihan berbasis BERT baru untuk bahasa Vietnam yang dirancang untuk mengatasi keterbatasan standar saat ini, PhoBERT. Dilatih dari awal pada korpus 129GB selama 20 epoch, model ini mendukung panjang konteks yang diperluas hingga 2048 token dan beroperasi langsung pada input mentah tanpa segmentasi kata eksternal.

arxiv arXiv cs.CL · 2 jam lalu

CheckRLM: Pengecekan Koherensi Pengetahuan-Pemikiran yang Efektif dalam Penalaran Berbasis Retrieval

Para penulis mengusulkan CheckRLM, sebuah kerangka kerja yang meningkatkan keandalan Model Bahasa Penalaran dengan menggunakan Generasi Berbasis Retrieval untuk memeriksa dan memperbaiki kesalahan faktual secara tepat waktu selama inferensi. Pendekatan ini mengekstrak klaim faktual dari rantai penalaran untuk mengidentifikasi inkonsistensi dan menerapkan koreksi berbiaya minimal melalui pengetahuan eksternal.

arxiv arXiv cs.CL · 2 jam lalu

HERMES: Substrat Pelabelan Multi-Granularitas untuk Campuran Data Pra-pelatihan

HERMES adalah substrat pelabelan yang diturunkan dari data yang menggunakan Transformasi Semantik Terlatih dan kuantisasi vektor residual 3 tahap untuk memberi anotasi dokumen ke dalam kode kasar-hingga-halus dengan hingga sekitar 130k sel.

arxiv arXiv cs.CL · 2 jam lalu

Tentang Peran Arah dalam Generalisasi Struktural

Artikel ini memperkenalkan backend simbolik yang didesain ulang untuk AM-Parser yang memanfaatkan tipe berarah CCG untuk menangani perbedaan arah dengan lebih baik dalam tugas generalisasi struktural seperti pergeseran posisi modifier.

media r/LocalLLaMA · 3 jam lalu

Pemrosesan prompt terdisagregasi dengan DGX Spark dan Strix Halo

Seorang pengguna mendemonstrasikan pipeline inferensi terdisagregasi menggunakan DGX Spark untuk prefilling dan kotak Strix Halo untuk generasi token, mencapai percepatan signifikan untuk beban kerja konteks panjang. Dengan mengalihkan pemrosesan prompt yang intensif secara komputasi ke DGX sambil memanfaatkan bandwidth memori Strix untuk decoding, pengaturan ini mengatasi degradasi kinerja yang terlihat saat berjalan sendiri di Strix.

arxiv arXiv cs.CL · 3 jam lalu

HNSW dengan Jaminan Akurasi Menggunakan Spanner Graf

Laporan teknis ini memperkenalkan kerangka kerja "Certify-then-Rectify" yang menggabungkan kecepatan graf Hierarchical Navigable Small World (HNSW) dengan jaminan kebenaran teoretis. Metode ini secara dinamis mengevaluasi kualitas pencarian dan meningkatkan ke algoritma pemulihan eksak jika diperlukan, memastikan akurasi kasus terburuk.

arxiv arXiv cs.CL · 3 jam lalu

SkillFuzz: Fuzzing Komposisi Keterampilan untuk Penemuan Intent Implisit di Pasar Keterampilan Terbuka

Makalah ini memperkenalkan SkillFuzz, sebuah pendekatan pengujian bebas eksekusi yang dirancang untuk menemukan intent implisit di pasar keterampilan terbuka di mana keterampilan yang secara individual tidak berbahaya dapat berinteraksi untuk mengalihkan agen menuju tujuan yang tidak diinginkan. Dengan memformulasikan penemuan ini sebagai masalah fuzzing atas komposisi keterampilan, metode ini mengekstrak kontrak terstruktur dan menggunakan Pencarian Pohon Monte Carlo yang dipandu kontrak untuk memprioritaskan kombinasi yang berpotensi konflik.

arxiv arXiv cs.CL · 4 jam lalu

Model Dunia: Alat Sastra untuk AI Budaya

Artikel ini berargumen bahwa disiplin sastra menyediakan alat yang sangat diperlukan untuk membangun AI yang melek budaya, mengatasi keterbatasan model bahasa besar monolingual.

arxiv arXiv cs.CL · 4 jam lalu

HULAT2 di MER-TRANS 2026: Penyederhanaan Multi-Agen yang Dikelola untuk Generasi Bacaan Mudah Bahasa Spanyol

Makalah ini mendetailkan partisipasi HULAT2-UC3M dalam trek bahasa Spanyol MER-TRANS 2026, sebuah tugas bersama tentang terjemahan bacaan mudah multibahasa. Tim mengirimkan tiga jalankan sepenuhnya otomatis yang membandingkan alur kerja multi-agen dengan baseline linier untuk mengevaluasi strategi penyederhanaan.

arxiv arXiv cs.CL · 4 jam lalu

Kenali Sumber Anda: Toko Pengetahuan Publik untuk Pemeriksaan Latar Belakang Media

Para penulis memperkenalkan MEDIAREF, sebuah toko pengetahuan yang tersedia secara publik dari dokumen bersumber web yang dirancang untuk memungkinkan evaluasi yang dapat direproduksi dan berbiaya rendah untuk pemeriksaan latar belakang media (MBC). Alat ini mengatasi ketergantungan pada API pencarian proprietaris yang mahal dalam pendekatan penalaran kritis sumber terbaru.

arxiv arXiv cs.CL · 4 jam lalu

Pola Migrasi Akademik dalam Pemrosesan Bahasa Alami

Sebuah studi yang menganalisis penelitian NLP dari tahun 2010 hingga 2026 menemukan bahwa pusat gravitasi disiplin ilmu bergeser seiring dengan kemajuan Model Bahasa Besar yang mengaburkan batas antara NLP dan Pembelajaran Mesin umum.

arxiv arXiv cs.CL · 4 jam lalu

Penilaian otomatis ujian Linux/bash menggunakan model bahasa besar

Studi ini mengevaluasi apakah empat Model Bahasa Besar (LLM) terdepan (GPT, Claude Opus, Gemini, dan GLM) dapat mengaproksimasi penilaian ahli saat menilai respons perintah Linux/bash yang pendek. Penelitian ini menunjukkan bahwa prompt terstruktur secara signifikan meningkatkan kesesuaian dengan penilai manusia, menetapkan kerangka kerja untuk penilaian yang dibantu AI dalam pendidikan komputing.

arxiv arXiv cs.CL · 5 jam lalu

EvoPolicyGym: Mengevaluasi Evolusi Kebijakan Otomatis di Lingkungan Interaktif

Artikel ini memperkenalkan EvoPolicyGym, sebuah benchmark yang dirancang untuk mengevaluasi bagaimana agen secara iteratif meningkatkan kebijakan yang dapat dieksekusi melalui umpan balik dalam batas interaksi tetap. Pengaturan terkontrol ini mengatasi keterbatasan evaluasi yang ada yang sering kali meruntuhkan proses menjadi skor akhir atau mencampuradukkannya dengan kemajuan teknik perangkat lunak.

arxiv arXiv cs.CL · 5 jam lalu

Model Bahasa sebagai Alat Pengukuran untuk Budaya

Makalah ini berargumen bahwa menggunakan NLP untuk mengkuantifikasi fenomena budaya adalah praktik material-discursif di mana aparatus secara aktif membentuk realitas yang diukurnya daripada merekamnya secara pasif.

media Hugging Face Forums · 6 jam lalu

Tes pada akun saya

Ini adalah postingan tes yang dibuat untuk memverifikasi kemampuan membuat konten. Diskusi ini berisi dua postingan dan melibatkan dua peserta.

github Goose (Block) · 6 jam lalu

Catatan Rilis Goose v1.41.0

Pembaruan Goose v1.41.0 memperkenalkan ekspansi signifikan dalam dukungan provider, termasuk integrasi baru untuk iFlytek Spark, Astron, Fireworks AI, Together AI, OrcaRouter, EmpirioLabs AI, xAI SuperGrok, Perplexity, Alibaba (Qwen melalui DashScope), Databricks AI Gateway, NEAR AI Cloud, dan Scaleway. Ini juga menambahkan dukungan model GLM-5.2 dan kemampuan inferensi lokal MLX.

arxiv arXiv cs.CL · 6 jam lalu

Apakah Skala Akan Meningkatkan Simulasi Sosial dengan LLM?

Studi ini menyelidiki apakah paradigma penskalaan model bahasa saat ini dapat menutup kesenjangan kesetiaan dalam simulasi sosial di pemodelan opini, simulasi perilaku, dan peramalan longitudinal. Menggunakan 85 model transformer Qwen3 yang dilatih pada korpus DCLM dengan anggaran komputasi tetap dari $10^{18}$ hingga $10^{20}$ FLOPs, para penulis menganalisis hubungan antara skala komputasi dan akurasi simulasi.

arxiv arXiv cs.CL · 6 jam lalu

TestEvo-Bench: Benchmark Eksekutabel dan Langsung untuk Ko-Evolusi Tes dan Kode

Para penulis memperkenalkan TestEvo-Bench, sebuah benchmark langsung yang dirancang untuk mengevaluasi seberapa baik agen otomatisasi tes menangani ko-evolusi kode dan tes. Ini mengatasi keterbatasan dalam benchmark yang ada dengan menyediakan tugas-tugas eksekutabel yang berakar pada riwayat commit nyata dengan konfigurasi lingkungan.