Petunjuk Stream-Stall Diperbarui di v2.1.185
Petunjuk stream-stall sekarang menampilkan "Menunggu respons API · akan mencoba lagi dalam …" dan diaktifkan setelah 20 detik tanpa aktivitas, menggantikan pesan dan penundaan sebelumnya.
Petunjuk stream-stall sekarang menampilkan "Menunggu respons API · akan mencoba lagi dalam …" dan diaktifkan setelah 20 detik tanpa aktivitas, menggantikan pesan dan penundaan sebelumnya.
Versi llama.cpp b9741 memperkenalkan binari baru untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur. Rilis ini mencakup dukungan untuk Vulkan, CUDA 12.4 dan 13.3, OpenVINO, SYCL, dan ROCm, dengan versi yang diperbarui untuk iOS dan Ubuntu.
Sebuah patch mengatasi kegagalan acak pada test-args-parser di Windows dengan memodifikasi penggantian argv agar hanya berlaku ketika argc cocok, mencegah penimpaan argumen programatik. Ini memperbaiki assertion fastfail dalam alur kerja OpenVINO di Windows sambil mempertahankan penanganan UTF-8 untuk biner nyata.
LLaMA.cpp versi b9739 menambahkan dukungan untuk Windows ARM64 menggunakan OpenCL Adreno. Rilis ini mencakup biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan API, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.
Versi llama.cpp b9738 memperbaiki proxy CORS untuk menghindari penerusan header autentikasi. Rilis ini mencakup pembangunan biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.
Proyek ggml telah mengoptimalkan kinerja AMX dengan melakukan flattening pada partisi atas n_batch * M, memastikan semua thread berpartisipasi dalam kuantisasi. Perubahan ini meningkatkan kecepatan hingga 1.47x di berbagai model dan konfigurasi perangkat keras pada platform CPU dan GPU, dengan hasil menunjukkan peningkatan konsisten dalam waktu inferensi.
Pengindeks DSA model GLM-5.2 dimuat secara salah pada semua lapisan, menyebabkan kegagalan karena tensor yang hilang. Pembaruan menandai tensor pengindeks sebagai TENSOR_NOT_REQUIRED, memungkinkan lapisan tanpa pengindeks untuk dimuat sebagai nullptr dan mengaktifkan perhatian MLA penuh. DeepSeek-V3.2, dengan pengindeksan seragam, tidak terpengaruh.
Sebuah pull request telah diajukan untuk menambahkan antarmuka web prabangun untuk arsitektur s390x di Docker. Perubahan ini saat ini menunggu rilis dan belum dipublikasikan.
LLaMA.cpp merilis versi b9732 dengan binari yang diperbarui untuk macOS, Linux, Android, Windows, dan openEuler. Rilis ini mencakup komunikasi anak-ke-router yang direfaktor, perbaikan penanganan wakeup, peningkatan update_status(), dan dokumentasi. Build baru mendukung Vulkan, ROCm, OpenVINO, SYCL, dan CUDA 12/13 pada beberapa arsitektur.
Proyek ggml-webgpu telah menambahkan toggle adapter untuk dukungan presisi setengah (F16) pada GPU Vulkan dan NVIDIA. Pembaruan ini mengaktifkan kinerja yang lebih baik pada perangkat keras yang kompatibel di berbagai platform, termasuk macOS, Linux, Android, Windows, dan openEuler, dengan build khusus tersedia untuk arsitektur ARM dan x64.
Versi llama.cpp b9731 memperkenalkan optimisasi menggunakan std::partial_sort untuk mengurangi overhead pengurutan token, meningkatkan kinerja dari 8.555ms menjadi 0.704ms untuk pemilihan top-n token. Rilis ini mencakup binari pra-bangun untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras.
Versi llama.cpp b9730 menyertakan perbaikan untuk penanganan UTF-8 di Windows serta peningkatan pada ggml_fopen dan CLI. Rilis ini menyediakan biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.
LLaMA.cpp merilis versi b9729 dengan binari untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur. Rilis ini mencakup dukungan CPU, Vulkan, OpenVINO, SYCL, dan ROCm, serta paket UI baru. Referensi internal ke 'webui' telah dihapus.
Versi b9728 dari LLaMA.cpp memperkenalkan dukungan untuk baris komentar dalam konfigurasi --api-key-file. Rilis ini mencakup binari yang telah dibangun sebelumnya untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.
llama.cpp versi b9726 memperkenalkan argumen --agent baru dan menghapus kompatibilitas penamaan webui yang redundan. Rilis ini mencakup biner pra-kompilasi untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras.
Versi b9727 dari llama.cpp memperbarui cpp-httplib ke versi 0.48.0. Rilis ini mencakup biner untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur dan opsi akselerasi perangkat keras, termasuk Vulkan, CUDA, OpenVINO, dan SYCL.
Proyek Docker telah menambahkan dukungan untuk membangun komponen UI. Pembaruan ini juga mencakup penggunaan APP_VERSION yang sudah ada dalam konfigurasi kontainer.
llama.cpp versi b9724 menyertakan beberapa perbaikan bug dan peningkatan, seperti perbaikan build, penghindaran overflow pada fungsi area(), dan pemeriksaan kewarasan di get_u32(). Rilis ini menyediakan binari pra-dibangun untuk macOS (arm64 dan x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP), dan openEuler (x86 dan aarch64 dengan dukungan ACL Graph), serta paket UI.
Versi llama.cpp b9723 memperkenalkan dukungan untuk model Qwen3.5 dan Qwen3.6 melalui Eagle3. Rilis ini mencakup pemulihan titik batas tertunda untuk model hibrida dan pembaruan pada konvensi API dan penamaan. Build biner tersedia untuk platform macOS, Linux, Android, Windows, dan openEuler, dengan opsi untuk CPU, Vulkan, OpenVINO, SYCL, dan ROCm.
Versi b9722 dari LLaMA.cpp memperbaiki masalah nilai n_discard yang tidak terikat dalam penanganan konteks server. Rilis ini mencakup binari pra-kompilasi untuk macOS, Linux, Android, Windows, dan openEuler, mendukung berbagai arsitektur dan framework akselerasi seperti Vulkan, CUDA, OpenVINO, dan SYCL.