Semua artikel — korshunov.ai

Semua artikel Halaman 1 / 10

Petunjuk Stream-Stall Diperbarui di v2.1.185

Petunjuk stream-stall sekarang menampilkan "Menunggu respons API · akan mencoba lagi dalam …" dan diaktifkan setelah 20 detik tanpa aktivitas, menggantikan pesan dan penundaan sebelumnya.

github llama.cpp · 11 hari lalu

llama.cpp Rilis b9741 Menambahkan Binari Baru dan Dukungan

Versi llama.cpp b9741 memperkenalkan binari baru untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur. Rilis ini mencakup dukungan untuk Vulkan, CUDA 12.4 dan 13.3, OpenVINO, SYCL, dan ROCm, dengan versi yang diperbarui untuk iOS dan Ubuntu.

github llama.cpp · 11 hari lalu

Perbaikan untuk kegagalan acak test-args-parser di Windows

Sebuah patch mengatasi kegagalan acak pada test-args-parser di Windows dengan memodifikasi penggantian argv agar hanya berlaku ketika argc cocok, mencegah penimpaan argumen programatik. Ini memperbaiki assertion fastfail dalam alur kerja OpenVINO di Windows sambil mempertahankan penanganan UTF-8 untuk biner nyata.

github llama.cpp · 11 hari lalu

LLaMA.cpp Rilis b9739 Menambahkan Dukungan Win OpenCL Adreno ARM64

LLaMA.cpp versi b9739 menambahkan dukungan untuk Windows ARM64 menggunakan OpenCL Adreno. Rilis ini mencakup biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan API, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.

github llama.cpp · 11 hari lalu

llama.cpp merilis b9738: memperbaiki penerusan header autentikasi CORS dan membangun biner baru

Versi llama.cpp b9738 memperbaiki proxy CORS untuk menghindari penerusan header autentikasi. Rilis ini mencakup pembangunan biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.

github llama.cpp · 11 hari lalu

ggml mengoptimalkan AMX dengan flattening partisi

Proyek ggml telah mengoptimalkan kinerja AMX dengan melakukan flattening pada partisi atas n_batch * M, memastikan semua thread berpartisipasi dalam kuantisasi. Perubahan ini meningkatkan kecepatan hingga 1.47x di berbagai model dan konfigurasi perangkat keras pada platform CPU dan GPU, dengan hasil menunjukkan peningkatan konsisten dalam waktu inferensi.

github llama.cpp · 11 hari lalu

Perbaikan pengindeks DSA GLM-5.2: tensor ditandai tidak diperlukan

Pengindeks DSA model GLM-5.2 dimuat secara salah pada semua lapisan, menyebabkan kegagalan karena tensor yang hilang. Pembaruan menandai tensor pengindeks sebagai TENSOR_NOT_REQUIRED, memungkinkan lapisan tanpa pengindeks untuk dimuat sebagai nullptr dan mengaktifkan perhatian MLA penuh. DeepSeek-V3.2, dengan pengindeksan seragam, tidak terpengaruh.

github llama.cpp · 11 hari lalu

Antarmuka web prabangun untuk s390x di Docker

Sebuah pull request telah diajukan untuk menambahkan antarmuka web prabangun untuk arsitektur s390x di Docker. Perubahan ini saat ini menunggu rilis dan belum dipublikasikan.

github llama.cpp · 12 hari lalu

LLaMA.cpp Rilis b9732: Binari Baru dan Pembaruan

LLaMA.cpp merilis versi b9732 dengan binari yang diperbarui untuk macOS, Linux, Android, Windows, dan openEuler. Rilis ini mencakup komunikasi anak-ke-router yang direfaktor, perbaikan penanganan wakeup, peningkatan update_status(), dan dokumentasi. Build baru mendukung Vulkan, ROCm, OpenVINO, SYCL, dan CUDA 12/13 pada beberapa arsitektur.

github llama.cpp · 12 hari lalu

ggml-webgpu Menambahkan Toggle Adapter F16 untuk Vulkan dan NVIDIA

Proyek ggml-webgpu telah menambahkan toggle adapter untuk dukungan presisi setengah (F16) pada GPU Vulkan dan NVIDIA. Pembaruan ini mengaktifkan kinerja yang lebih baik pada perangkat keras yang kompatibel di berbagai platform, termasuk macOS, Linux, Android, Windows, dan openEuler, dengan build khusus tersedia untuk arsitektur ARM dan x64.

github llama.cpp · 12 hari lalu

llama.cpp Release b9731: Optimisasi Kinerja dan Binari Lintas Platform

Versi llama.cpp b9731 memperkenalkan optimisasi menggunakan std::partial_sort untuk mengurangi overhead pengurutan token, meningkatkan kinerja dari 8.555ms menjadi 0.704ms untuk pemilihan top-n token. Rilis ini mencakup binari pra-bangun untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras.

github llama.cpp · 12 hari lalu

llama.cpp rilis b9730: perbaikan dan biner baru

Versi llama.cpp b9730 menyertakan perbaikan untuk penanganan UTF-8 di Windows serta peningkatan pada ggml_fopen dan CLI. Rilis ini menyediakan biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.

github llama.cpp · 12 hari lalu

LLaMA.cpp Rilis b9729: Binari Baru dan Dukungan Platform

LLaMA.cpp merilis versi b9729 dengan binari untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur. Rilis ini mencakup dukungan CPU, Vulkan, OpenVINO, SYCL, dan ROCm, serta paket UI baru. Referensi internal ke 'webui' telah dihapus.

github llama.cpp · 12 hari lalu

Rilis LLaMA.cpp b9728 Menambahkan Dukungan Baris Komentar dan Binari Multi-Platform

Versi b9728 dari LLaMA.cpp memperkenalkan dukungan untuk baris komentar dalam konfigurasi --api-key-file. Rilis ini mencakup binari yang telah dibangun sebelumnya untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.

github llama.cpp · 12 hari lalu

llama.cpp rilis b9726 menambahkan argumen --agent dan biner platform baru

llama.cpp versi b9726 memperkenalkan argumen --agent baru dan menghapus kompatibilitas penamaan webui yang redundan. Rilis ini mencakup biner pra-kompilasi untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras.

github llama.cpp · 12 hari lalu

llama.cpp Release b9727: Pembaruan ke cpp-httplib 0.48.0

Versi b9727 dari llama.cpp memperbarui cpp-httplib ke versi 0.48.0. Rilis ini mencakup biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.

github llama.cpp · 12 hari lalu

Docker: Bangun UI (#24794)

Proyek Docker telah menambahkan dukungan untuk membangun komponen UI. Pembaruan ini juga mencakup penggunaan APP_VERSION yang sudah ada dalam konfigurasi kontainer.

github llama.cpp · 12 hari lalu

llama.cpp Rilis b9724 dengan Perbaikan Bug dan Binari Lintas Platform

llama.cpp versi b9724 menyertakan beberapa perbaikan bug dan peningkatan, seperti perbaikan build, penghindaran overflow pada fungsi area(), dan pemeriksaan kewarasan di get_u32(). Rilis ini menyediakan binari pra-dibangun untuk macOS (arm64 dan x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP), dan openEuler (x86 dan aarch64 dengan dukungan ACL Graph), serta paket UI.

github llama.cpp · 12 hari lalu

llama.cpp release b9723 menambahkan dukungan untuk Qwen3.5 dan Qwen3.6 Eagle3

Versi llama.cpp b9723 memperkenalkan dukungan untuk model Qwen3.5 dan Qwen3.6 melalui Eagle3. Rilis ini mencakup pemulihan titik batas tertunda untuk model hibrida dan pembaruan pada konvensi API dan penamaan. Build biner tersedia untuk platform macOS, Linux, Android, Windows, dan openEuler, dengan opsi untuk CPU, Vulkan, OpenVINO, SYCL, dan ROCm.

github llama.cpp · 12 hari lalu

Rilis LLaMA.cpp b9722: Perbaikan dan Binari lintas-platform

Versi b9722 dari LLaMA.cpp memperbaiki masalah nilai n_discard yang tidak terikat dalam penanganan konteks server. Rilis ini mencakup binari pra-kompilasi untuk macOS, Linux, Android, Windows, dan openEuler, mendukung berbagai arsitektur dan framework akselerasi seperti Vulkan, CUDA, OpenVINO, dan SYCL.