تم تحديث تلميح تعطل التدفق في الإصدار v2.1.185
يعرض الآن تلميح تعطل التدفق "في انتظار استجابة API · سيتم إعادة المحاولة بعد …" وينشط بعد 20 ثانية من الصمت، ليحل محل الرسالة السابقة والتأخير.
يعرض الآن تلميح تعطل التدفق "في انتظار استجابة API · سيتم إعادة المحاولة بعد …" وينشط بعد 20 ثانية من الصمت، ليحل محل الرسالة السابقة والتأخير.
يُطلق إصدار llama.cpp بـ b9741 ثنائيات جديدة لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر معماريات متعددة. يتضمن الإصدار دعمًا لـ Vulkan وCUDA 12.4 و13.3 وOpenVINO وSYCL وROCm، مع إصدارات محدثة لنظام iOS وUbuntu.
يعالج التصحيح الفشل العشوائي في اختبار تحليل المعاملات (test-args-parser) على نظام ويندوز من خلال تعديل تجاوز argv ليُطبَّق فقط عندما يتطابق argc، مما يمنع طمس المعاملات البرمجية. وهذا يُصلح خطأ فشل سريع (fastfail assertion) في سير عمل OpenVINO على ويندوز مع الحفاظ على معالجة UTF-8 للثنائيات الحقيقية.
يضيف إصدار LLaMA.cpp بـ b9739 دعمًا لنظام Windows ARM64 باستخدام OpenCL Adreno. يتضمن الإصدار ثنائيات لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر معماريات متعددة وواجهات برمجة تطبيقات، بما في ذلك Vulkan وCUDA وOpenVINO وSYCL.
يصلح إصدار llama.cpp بـ b9738 الوكيل الوسيط لـ CORS لتجنب توجيه رؤوس المصادقة. يتضمن الإصدار بناءً لملفات قابلة للتنفيذ لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر معماريات متعددة وخيارات تسريع الأجهزة، بما في ذلك Vulkan وCUDA وOpenVINO وSYCL.
قام مشروع ggml بتحسين أداء AMX عن طريق تسطيح التقسيم على n_batch * M، مما يضمن مشاركة جميع الخيوط في عملية التكميم. هذا التغيير يحسّن السرعة بنسبة تصل إلى 1.47x عبر نماذج وتكوينات عتادية مختلفة على منصات CPU وGPU، مع إظهار النتائج مكاسب متسقة في وقت الاستدلال.
تم تحميل فهرس DSA الخاص بنموذج GLM-5.2 بشكل خاطئ على جميع الطبقات، مما تسبب في فشل بسبب موترات مفقودة. تُعلِّم التحديثات موترات الفهرس بـ TENSOR_NOT_REQUIRED، مما يسمح للطبقات التي لا تحتوي على فهرس بأن تُحمَّل كـ nullptr ويمكّن من انتباه MLA الكامل. لم يتأثر DeepSeek-V3.2، الذي يستخدم فهرسة موحدة.
تم تقديم طلب سحب لإضافة واجهة ويب مسبقة البناء لعمارة s390x في Docker. التغيير قيد الانتظار للإصدار ولم يتم نشره بعد.
أصدرت LLaMA.cpp الإصدار b9732 مع ثنائيات محدثة لأنظمة macOS وLinux وAndroid وWindows وopenEuler. يتضمن الإصدار إعادة هيكلة لاتصال الطفل-إلى-الموجّه، وإصلاحات لمعالجة الاستيقاظ، وتحسين لـ update_status()، والتوثيق. تدعم التجميعات الجديدة Vulkan وROCm وOpenVINO وSYCL وCUDA 12/13 على عدة معماريات.
أضاف مشروع ggml-webgpu مفاتيح تبديل للمحول لدعم الدقة النصفية (F16) على وحدات معالجة الرسومات Vulkan وNVIDIA. يتيح هذا التحديث أداءً محسّنًا على الأجهزة المتوافقة عبر منصات متعددة، بما في ذلك macOS وLinux وAndroid وWindows وopenEuler، مع توفر إصدارات مخصصة لهندسة ARM وx64.
يُقدم إصدار llama.cpp b9731 تحسينًا باستخدام std::partial_sort لتقليل عبء ترتيب الرموز، مما يحسن الأداء من 8.555 مللي ثانية إلى 0.704 مللي ثانية لاختيار أعلى n رمزًا. يتضمن الإصدار ثنائيات جاهزة لـ macOS وLinux وAndroid وWindows وopenEuler عبر بنية متعددة وخيارات تسريع الأجهزة.
يتضمن إصدار llama.cpp b9730 إصلاحات للتعامل مع UTF-8 على نظام Windows وتحسينات في ggml_fopen وCLI. يوفر الإصدار ثنائيات لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر العديد من البنى وخيارات تسريع الأجهزة، بما في ذلك Vulkan وCUDA وOpenVINO وSYCL.
أصدرت LLaMA.cpp الإصدار b9729 مع ملفات ثنائية لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر بنية متعددة. يتضمن الإصدار دعمًا لـ CPU وVulkan وOpenVINO وSYCL وROCm، بالإضافة إلى حزمة واجهة مستخدم جديدة. تمت إزالة المراجع الداخلية إلى 'webui'.
يُقدم إصدار LLaMA.cpp بـ b9728 دعمًا لأسطر التعليقات في تكوين --api-key-file. يتضمن الإصدار ثنائيات مُعدة مسبقًا لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر العديد من المعماريات وخيارات تسريع الأجهزة، بما في ذلك Vulkan وCUDA وOpenVINO وSYCL.
يُقدم إصدار llama.cpp b9726 وسيطًا جديدًا باسم --agent ويُزيل توافق تسمية webui الزائد. يتضمن الإصدار ثنائيات مُعدّة مسبقًا لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر بنية متعددة وتسريع عتادي.
يحدث إصدار llama.cpp بـ b9727 مكتبة cpp-httplib إلى الإصدار 0.48.0. يتضمن هذا الإصدار ملفات تنفيذية لأنظمة macOS وLinux وAndroid وWindows وopenEuler عبر معالجات متعددة وخيارات تسريع الأجهزة، بما في ذلك Vulkan وCUDA وOpenVINO وSYCL.
أضاف مشروع Docker دعمًا لبناء مكون واجهة المستخدم. يتضمن هذا التحديث أيضًا استخدام متغير APP_VERSION الموجود في تكوين الحاوية.
يتضمن إصدار llama.cpp b9724 عدة إصلاحات للأخطاء وتحسينات، مثل إصلاحات البناء، وتجنب تجاوز السعة في دالة area()، وفحص الصحة في get_u32(). يوفر الإصدار ثنائيات مُعدة مسبقًا لأنظمة macOS (arm64 وx64)، وLinux (x64، arm64، s390x، Vulkan، ROCm، OpenVINO، SYCL)، وAndroid (arm64)، وWindows (x64، arm64، CUDA 12/13، Vulkan، OpenVINO، SYCL، HIP)، وopenEuler (x86 وaarch64 مع دعم ACL Graph)، بالإضافة إلى حزمة واجهة المستخدم.
تقدم إصدار llama.cpp b9723 دعمًا لنماذج Qwen3.5 و Qwen3.6 عبر Eagle3. يتضمن الإصدار استعادة نقاط التفتيش الحدودية المؤجلة للنماذج الهجينة وتحديثات لـ API واتفاقيات التسمية. تتوفر تجميعات ثنائية لمنصات macOS و Linux و Android و Windows و openEuler، مع خيارات لـ CPU و Vulkan و OpenVINO و SYCL و ROCm.
يصلح إصدار b9722 من LLaMA.cpp مشكلة قيمة n_discard غير المحددة في معالجة سياق الخادم. يتضمن الإصدار ثنائيات مُعدّة مسبقًا لأنظمة macOS وLinux وAndroid وWindows وopenEuler، ويدعم مختلف البنى وأطر التسريع مثل Vulkan وCUDA وOpenVINO وSYCL.