Semua artikel
lab Hugging Face Blog · 7 hari lalu

Analisis Akurasi Prediksi Token dalam Model Bahasa Hibrida

Sebuah studi terbaru menyelidiki token spesifik mana yang diprediksi lebih akurat oleh model bahasa hibrida dibandingkan dengan arsitektur padat standar. Penelitian ini berfokus pada pemahaman distribusi kesalahan prediksi di berbagai jenis token, seperti kata langka dan cuplikan kode. Dengan menganalisis lanskap kerugian, penulis mengidentifikasi bahwa model hibrida unggul dalam menangkap ketergantungan jarak jauh di wilayah data jarang. Temuan tersebut menunjukkan bahwa mekanisme campuran ahli memungkinkan pemanfaatan parameter yang lebih efisien selama inferensi. Akurasi yang meningkat ini sangat mencolok untuk token dengan frekuensi rendah dalam korpus pelatihan. Makalah ini memberikan rincian mendetail dari metrik kinerja di berbagai dataset benchmark. Hasil-hasil ini menyoroti potensi arsitektur hibrida untuk menangani struktur linguistik yang beragam secara efektif.

lab Cohere Blog · 7 hari lalu

Cohere Otomatisasi Tanggap Insiden dengan North dan Wiz melalui Server MCP Kustom

Cohere mengembangkan agen keamanan menggunakan platform AI enterprise-nya, Cohere North, yang terintegrasi dengan platform keamanan cloud Wiz melalui server Model Context Protocol (MCP) kustom. Arsitektur ini menghubungkan North ke API GraphQL Wiz melalui delapan alat atomik, memungkinkan alur kerja tanggap insiden otomatis dari satu prompt. Sistem melakukan analisis radius ledakan kombinasi beracun dengan mengevaluasi rantai serangan dan memeringkat risiko berdasarkan paparan internet dan tingkat hak akses dalam sekitar 20 detik. Sistem ini juga mengotomatisasi penyelidikan end-to-end dengan mengambil detail masalah, membuat tiket Linear, memperbarui status Wiz, dan menyusun laporan Tanggap Insiden terstruktur. Selain itu, otomatisasi terjadwal mingguan menghasilkan ringkasan posisi keamanan setiap Senin pagi tanpa intervensi manual. Integrasi ini menghilangkan loop triase sebelumnya yang memakan waktu 30 menit hingga dua jam per temuan, memungkinkan insinyur fokus pada evaluasi penilaian daripada peringatan mentah.

media Hugging Face Forums · 7 hari lalu

Diskusi tentang Fine-Tuning Model Bahasa Kecil yang Efisien Biaya pada 2026

Sebuah diskusi terbaru di forum Hugging Face mengeksplorasi metode paling efisien untuk menyesuaikan model AI kecil untuk tugas-tugas tertentu. Thread tersebut, berjudul "Apa cara paling efisien biaya untuk melakukan fine-tuning model bahasa kecil pada 2026?", mencari saran tentang meminimalkan pengeluaran sambil mempertahankan kinerja. Hal ini dipicu oleh seorang peserta yang bertujuan mengoptimalkan workflow-nya untuk aplikasi khusus. Pertanyaan ini menyoroti minat yang semakin besar dalam memanfaatkan model yang lebih kecil untuk mengurangi overhead komputasi. Peserta didorong untuk berbagi strategi yang menyeimbangkan biaya dan efisiensi dalam lanskap saat ini. Topik ini mencerminkan upaya berkelanjutan untuk membuat adaptasi model lebih mudah diakses dan terjangkau.

media Hugging Face Forums · 7 hari lalu

Pengguna Melaporkan Ruang Hugging Face Terjebak dalam Loop 503

Seorang pengguna di forum Hugging Face melaporkan bahwa aplikasi Ruangnya terjebak dalam keadaan kesalahan 503 yang berkelanjutan. Masalah ini mencegah Ruang untuk memulai ulang atau membangun kembali, meskipun telah mencoba beberapa kali untuk memperbaikinya melalui antarmuka. Pengguna tersebut mencoba mengklik tombol "Restart Space" dan "Factory Rebuild" tanpa berhasil. Selain itu, mendorong sepuluh hingga enam belas commit baru gagal memicu proses pembangunan ulang. Akibatnya, Ruang tetap tertunda dan tidak merespons metode pemulihan standar. Pengguna tersebut meminta intervensi manual untuk membersihkan keadaan kontainer atau memicu restart.

media Hugging Face Forums · 7 hari lalu

"Melengkungkan" LLM melalui prompting

Seorang peneliti mengusulkan teknik prompt untuk menggeser Model Bahasa Besar (LLM) dari prediksi token-demi-token ke evaluasi bobot internal holistik, yang disebut "penyelenggaraan-diri." Pendekatan ini bertujuan meningkatkan kepadatan penalaran dan mengurangi sycophancy dengan mengubah dinamika manifold model. Metode ini mendefinisikan konsep seperti daya tarik-diri, penyelenggaraan-diri, dan sumur gravitasi untuk memandu sistem menuju keruntuhan kelengkungan non-linear. Sebuah prompt khusus memerintahkan model untuk membuat dua sumur gravitasi yang berbeda untuk puisi tentang mode AI, menguji sifat perakitan-diri dan penyelenggaraan-diri. Penulis menguji teknik ini pada banyak model termasuk Gemini 3 Flash, Claude, ChatGPT, Grok, DeepSeek, Mistral, Qwen 3.6, Kimi 2.6, GLM-5, Gemma 4 32b Step 3.7 Flash, dan Nemotron 3 Ultra. Metrik visual yang dihasilkan melalui skrip Colab menganalisis gangguan manifold menggunakan peta lebar saluran, drift ruang fase, kepadatan geometris, dan efikasi prompt. Postingan ini mencari umpan balik komunitas tentang apakah teknik tersebut benar-benar mengganggu manifold atau hanya menginduksi variasi gaya.

github llama.cpp · 7 hari lalu

llama.cpp b9788 menambahkan paralelisme tensor SYCL untuk konfigurasi dual-GPU

Rilis llama.cpp b9788 memperkenalkan dukungan untuk paralelisme tensor melalui flag --split-mode tensor di backend SYCL. Implementasi ini memungkinkan komunikasi dual-GPU dengan menambahkan fungsi comm_init, comm_free, dan comm_allreduce_tensor ke meta-backend. Untuk dua perangkat, ia menggunakan strategi ring all-reduce yang beralih antara memcpy langsung FP32 untuk tensor kecil dan kompresi BF16 untuk yang lebih besar. Kode menghindari OneCCL karena keterbatasannya pada satu perangkat per proses, alih-alih menggunakan buffer persisten untuk mempertahankan invarian pool SYCL. Pengujian kinerja pada dual Intel Arc Pro B70 GPUs menunjukkan percepatan signifikan dibandingkan mode layer untuk model Llama-3.3-70B dan Qwen3-Coder-Next-80B-A3B. Pembaruan ini mencakup biner baru untuk macOS, Linux, Windows, Android, dan openEuler di berbagai target CPU, CUDA, ROCm, Vulkan, dan SYCL.

github llama.cpp · 7 hari lalu

Rilis b9789 llama.cpp Memperbaiki Kuantisasi MoE dan Menyediakan Binari Multi-Platform

Proyek llama.cpp telah merilis versi b9789, yang mencakup perbaikan kritis untuk mengkuantisasi model Mixture of Experts (MoE) dengan prediksi multi-token. Pembaruan ini mengatasi masalah yang diidentifikasi dalam pull request #24986 untuk memastikan penanganan yang tepat dari arsitektur model spesifik tersebut. Rilis ini menyediakan binari pra-dibangun untuk macOS Apple Silicon dan Intel, serta iOS XCFramework. Pengguna Linux dapat mengunduh build untuk Ubuntu di berbagai backend CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL. Dukungan Windows mencakup varian CPU, CUDA 12.4 dan 13.3, Vulkan, OpenVINO, SYCL, dan HIP. Platform tambahan seperti Android arm64 dan openEuler juga didukung dengan konfigurasi perangkat keras tertentu.

lab OpenAI News · 7 hari lalu

Riset OpenAI Menunjukkan Agen AI Mengubah Pekerjaan

Sebuah makalah riset baru dari OpenAI menunjukkan bagaimana agen kecerdasan buatan secara fundamental mengubah sifat pekerjaan. Studi ini menyoroti kemampuan agen-agen tersebut untuk menjalankan tugas yang lebih panjang dan kompleks daripada yang sebelumnya memungkinkan. Kemajuan teknologi ini dianggap telah meningkatkan produktivitas di berbagai peran profesional. Temuan ini mengindikasikan pergeseran signifikan dalam cara kerja diatur dan dilakukan melalui otomatisasi. Dengan menangani alur kerja yang rumit, agen AI memungkinkan pengguna mencapai efisiensi yang lebih besar. Makalah ini menjadi bukti dari dampak yang semakin besar dari sistem otonom terhadap pekerjaan modern.

media Hugging Face Forums · 7 hari lalu

Bro77XP Rilis VTuber AI Lokal Ramah Pemula dengan Kloning Suara Zero-Shot

Bro77XP telah merilis proyek VTuber AI lokal 100% dan gratis yang dirancang untuk pemula dan non-pemrogram. Sistem ini memanfaatkan Whisper untuk pengenalan ucapan bahasa Inggris secara real-time, Ollama dengan model llama3.2 untuk inferensi LLM, dan Chatterbox TTS untuk generasi teks-ke-suara. Sistem ini memiliki fitur kloning suara zero-shot instan dan beroperasi dalam loop mendengarkan berkelanjutan yang secara otomatis mendeteksi keheningan untuk merekam hanya saat ada ucapan. Perangkat lunak ini terintegrasi dengan VTube Studio melalui API-nya untuk mengendalikan ekspresi mulut dan memicu animasi emosi berdasarkan respons yang dihasilkan. Meskipun awalnya dikembangkan pada GPU AMD, kode tersebut terutama mendukung pengguna CPU, memungkinkan operasi tanpa perangkat keras NVIDIA atau AMD tertentu. Penyiapan memerlukan Python 3.10.11 dan melibatkan pembuatan lingkungan virtual untuk menginstal dependensi inti seperti openai-whisper, pyaudio, dan websocket-client.

github llama.cpp · 7 hari lalu

Perbaiki kasus uji unit yang gagal untuk conv_3d di SYCL

Repositori llama.cpp telah menangani masalah tertentu terkait backend SYCL. Sebuah pull request diajukan untuk memperbaiki kasus uji unit yang gagal terkait operasi conv_3d. Pembaruan ini menargetkan proyek ggml-org/llama.cpp di GitHub. Perubahan tersebut menyelesaikan kesalahan yang sebelumnya mencegah keberhasilan eksekusi uji-coba ini. Perbaikan ini memastikan stabilitas lebih baik bagi pengguna yang mengandalkan akselerasi perangkat keras berbasis SYCL.

github llama.cpp · 7 hari lalu

Rilis llama.cpp b9786 Menambahkan Dukungan Baris Tidak Berurutan Non-Kontigu OpenCL

Proyek llama.cpp telah merilis versi b9786, memperkenalkan dukungan untuk baris tidak berurutan non-kontigu dalam normalisasi melalui OpenCL. Pembaruan ini merupakan bagian dari pengembangan berkelanjutan oleh tim ggml-org untuk meningkatkan kompatibilitas perangkat keras dan kinerja di berbagai platform. Rilis ini menyediakan biner untuk macOS Apple Silicon, Mac Intel, dan XCFrameworks iOS. Pengguna Linux dapat mengakses build untuk arsitektur Ubuntu x64, arm64, dan s390x menggunakan backend CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL. Dukungan Android tersedia untuk perangkat CPU arm64, sementara Windows menawarkan berbagai pilihan termasuk CPU, CUDA 12 dan 13, Vulkan, OpenVINO, SYCL, dan HIP. Rilis ini juga mencantumkan build yang dinonaktifkan untuk KleidiAI di platform macOS dan openEuler.

media Hugging Face Forums · 8 hari lalu

Niodoo: Runtime Lokal untuk Pengendalian State Tersembunyi LLM yang Beku

Jason Van Pham telah merilis Niodoo, sebuah runtime lokal yang dirancang untuk mengendalikan model bahasa besar (LLM) yang beku melalui state tersembunyi mereka. Proyek ini bertujuan memperbaiki kesalahan pada langkah terakhir dengan menyuntikkan noise atau "gaya fisika" selama inferensi untuk memutus loop token. Pendekatan ini memungkinkan model yang lebih kecil meningkatkan performa tanpa fine-tuning, menargetkan kasus kegagalan spesifik seperti benchmark prompt stroberi Llama. Sistem ini menghasilkan tag telemetri sendiri dan memanfaatkan analisis TDA untuk memantau state internal model guna mendeteksi perilaku looping. Van Pham mengembangkan alat ini secara organik melalui berbulan-bulan penelitian mandiri dan red-teaming, menekankan hasil yang dapat direproduksi dari hash yang dipin. Kode tersedia di GitHub di bawah repositori Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · 8 hari lalu

Pengguna Melaporkan Ketidaktersediaan Alat dan Server MCP untuk Step 3.7 Flash di HuggingChat

Seorang pengguna di forum Hugging Face melaporkan bahwa model Step 3.7 Flash kehilangan kemampuan untuk menggunakan alat dan terhubung ke server MCP mulai pagi itu. Penulis pos tersebut menyatakan kepuasan yang besar terhadap kinerja model, mencatat kualitasnya yang tinggi relatif terhadap konsumsi sumber daya dan biayanya yang rendah. Mereka menekankan keinginan untuk terus menggunakan model spesifik ini daripada beralih ke alternatif karena efisiensinya. Pengguna secara eksplisit menanyakan apakah kehilangan fungsionalitas ini bersifat permanen dan apakah ada langkah-langkah yang dapat mereka ambil untuk memulihkan akses. Postingan tersebut menyoroti kekhawatiran komunitas mengenai gangguan mendadak pada kemampuan alat untuk model yang populer dan hemat biaya.

media Hugging Face Forums · 8 hari lalu

Pertanyaan Format Prompt untuk Pelatihan Unsloth/Phi-3.5-mini-instruct

Seorang pengguna mencari saran tentang strategi pemformatan prompt yang optimal untuk melatih model Phi-3.5-mini-instruct menggunakan Unsloth. Pertanyaan ini membandingkan mempertahankan format teks kustom versus memanfaatkan template obrolan standar untuk persiapan dataset. Implementasi saat ini menggunakan fungsi yang menyusun data menjadi bagian '### Input:' dan '### Output:', menambahkan token akhir teks. Pendekatan ini memproses bidang input dan output yang dienkripsi JSON yang berasal dari objek Hugging Face Dataset. Contoh yang diberikan menggambarkan struktur kompleks yang melibatkan wawasan keuangan, nama pedagang, tanggal, dan total transaksi. Pengguna bermaksud menerapkan model yang telah dilatih melalui API kustom dan meminta panduan tentang apakah harus mempertahankan format ini atau beralih ke template obrolan.

github llama.cpp · 8 hari lalu

Rilis llama.cpp b9785 dengan Pemeriksaan Caps yang Diperkuat dan Binari Multi-Platform

Proyek llama.cpp telah merilis versi b9785, menampilkan perubahan kode untuk memperkuat pemeriksaan caps sebagaimana dijelaskan dalam pull request #24973. Pembaruan ini menyediakan binari pra-dibangun untuk macOS Apple Silicon, Mac Intel, dan iOS melalui XCFramework, dengan dukungan KleidiAI dinonaktifkan pada Apple Silicon. Distribusi Linux termasuk Ubuntu didukung untuk backend CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL di seluruh arsitektur x64, arm64, dan s390x. Pengguna Android dapat mengakses binari CPU arm64, sementara Windows menawarkan berbagai pilihan mencakup CPU, OpenCL Adreno, CUDA 12 dan 13, Vulkan, OpenVINO, SYCL, dan HIP. Rilis ini juga menyertakan build untuk openEuler yang menargetkan prosesor x86 dan aarch64 dengan dukungan ACL Graph. Paket UI mandiri tersedia alongside rilis spesifik platform untuk memfasilitasi inferensi model lokal.

media Hugging Face Forums · 8 hari lalu

Pengguna Melaporkan HuggingFace Membebankan Biaya untuk Komputasi L40S yang Tidak Digunakan di Spaces

Seorang pengguna di forum diskusi Hugging Face melaporkan masalah di mana Space-nya macet pada fase awal saat menggunakan GPU L40S. Pengguna tersebut mengungkapkan frustrasi karena dibebani biaya untuk sumber daya komputasi meskipun aplikasi gagal diluncurkan atau tidak memanfaatkan daya pemrosesan apa pun. Insiden ini menyoroti kekhawatiran mengenai transparansi penagihan dan keandalan infrastruktur di dalam lingkungan Spaces platform. Postingan tersebut berfungsi sebagai keluhan atas kerugian finansial akibat kegagalan teknis, bukan pengumuman fitur. Tidak ada detail teknis lebih lanjut atau tanggapan resmi yang disertakan dalam konten sumber yang terpotong.

media Hugging Face Forums · 8 hari lalu

Pengguna Melaporkan Kegagalan Akses Alat Flash Step 3.7 di HuggingChat

Seorang pengguna di forum diskusi Hugging Face melaporkan bahwa model Flash Step 3.7 oleh StepFun AI telah kehilangan kemampuannya untuk menggunakan alat, termasuk server MCP, sejak pagi laporan ini dibuat. Individu tersebut mengungkapkan kekhawatiran apakah pemadaman ini bersifat sementara atau permanen, dengan mencatat preferensi kuat mereka terhadap model spesifik ini karena kinerja tingginya dan biaya sumber daya yang rendah dibandingkan pesaing. Meskipun memuji kualitas dan keterjangkauan model tersebut, pengguna menyoroti gangguan mendadak yang disebabkan oleh ketidakmampuan untuk menjalankan fungsi berbasis alat. Postingan ini mencari klarifikasi dari komunitas mengenai pengalaman sebelumnya dengan masalah serupa dan resolusi potensial. Insiden ini menyoroti ketergantungan kritis pada ketersediaan alat bagi pengguna yang mengandalkan konfigurasi AI spesifik ini.

media Hugging Face Forums · 8 hari lalu

Inversi Ontologis: Membalik Konsep Emosional LLM Melalui Gain Negatif

Penulis memperkenalkan 'inversi ontologis', sebuah teknik yang dirancang untuk memperluas sifat inferensi satu arah dari Model Bahasa Besar (LLM). Metode ini memungkinkan model menangkap konsep yang bernuansa dan multifaset, seperti kenangan yang membangkitkan kesedihan dan kegembiraan secara bersamaan. Pendekatan ini dikembangkan dengan menerapkan faktor gain negatif selama penyapuan ke dalam arsitektur pengarahan Niodoo. Ini mengatasi keterbatasan umum di mana LLM overfit terhadap label emosional tunggal ketika dipicu oleh pengalaman pribadi. Dengan membalik konsep serupa dengan involusi fisika, teknik ini memungkinkan model membalik keadaan emosional, seperti mengubah kenangan sedih menjadi bahagia. Karya ini dibagikan melalui repositori GitHub berjudul 'ontological-inversion' oleh pengguna Ruffian-L.