ggml이 파티션 평활화를 통해 AMX 최적화
ggml 프로젝트는 모든 스레드가 양자화에 참여하도록 n_batch * M에 대한 파티션을 평활화하여 AMX 성능을 최적화했습니다. 이 변경은 CPU 및 GPU 플랫폼에서 다양한 모델과 하드웨어 구성에 걸쳐 최대 1.47배의 속도 향상을 가져왔으며, 추론 시간에서 일관된 개선 결과를 보여줍니다.
ggml 프로젝트는 모든 스레드가 양자화에 참여하도록 n_batch * M에 대한 파티션을 평활화하여 AMX 성능을 최적화했습니다. 이 변경은 CPU 및 GPU 플랫폼에서 다양한 모델과 하드웨어 구성에 걸쳐 최대 1.47배의 속도 향상을 가져왔으며, 추론 시간에서 일관된 개선 결과를 보여줍니다.
GLM-5.2 모델의 DSA 인덱서가 모든 레이어에 잘못 로드되어 누락된 텐서로 인해 실패했습니다. 이번 업데이트는 인덱서 텐서를 TENSOR_NOT_REQUIRED로 표시하여, 인덱서가 없는 레이어가 nullptr로 로드되도록 하고 전체 MLA 어텐션을 가능하게 합니다. 균일한 인덱싱을 사용하는 DeepSeek-V3.2는 영향을 받지 않습니다.
Docker에서 s390x 아키텍처를 위한 사전 빌드된 웹 UI를 추가하기 위한 풀 리퀘스트가 제출되었습니다. 이 변경 사항은 현재 릴리스 대기 중이며 아직 공개되지 않았습니다.
Rust 버전 0.0.15가 출시되었습니다. 이 초기 버전은 Rust의 초기 개발 단계의 일부이며 언어의 핵심 기능을 포함하고 있습니다.
Open Interpreter가 버전 0.0.16을 출시했습니다. 이 업데이트는 핵심 기능에 새로운 기능과 개선을 도입하여 사용자 상호 작용 및 작업 실행 능력을 향상시킵니다.
Open Interpreter가 버전 0.0.17을 출시했습니다. 이번 업데이트는 핵심 기능에 새로운 기능과 개선 사항을 도입하여 사용자 상호 작용 및 작업 실행 능력을 향상시켰습니다.
LLaMA.cpp는 macOS, Linux, Android, Windows 및 openEuler용 업데이트된 바이너리가 포함된 버전 b9732를 출시했습니다. 이번 릴리스에는 리팩토링된 자식-투-라우터 통신, 웨이크업 처리 수정, 개선된 update_status() 및 문서가 포함됩니다. 새로운 빌드는 Vulkan, ROCm, OpenVINO, SYCL 및 여러 아키텍처에서 CUDA 12/13을 지원합니다.
ggml-webgpu 프로젝트는 Vulkan 및 NVIDIA GPU의 반정밀(F16) 지원을 위해 어댑터 토글을 추가했습니다. 이 업데이트는 macOS, Linux, Android, Windows 및 openEuler을 포함한 여러 플랫폼에서 호환 하드웨어의 성능을 향상시키며, ARM 및 x64 아키텍처용 특정 빌드를 제공합니다.
llama.cpp 버전 b9731은 토큰 정렬 오버헤드를 줄이기 위해 std::partial_sort를 사용한 최적화를 도입하여 top-n 토큰 선택의 성능을 8.555ms에서 0.704ms로 개선했습니다. 이번 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 미리 빌드된 바이너리가 포함되어 있으며, 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
llama.cpp 버전 b9730에는 Windows에서의 UTF-8 처리 수정과 ggml_fopen 및 CLI 개선이 포함되어 있습니다. 이 릴리스는 Vulkan, CUDA, OpenVINO, SYCL을 포함한 여러 아키텍처 및 하드웨어 가속 옵션에 대한 macOS, Linux, Android, Windows, openEuler용 바이너리를 제공합니다.
Rust 버전 0.0.12가 출시되었습니다. 이 초기 버전은 Rust의 초기 개발 단계의 일부이며 언어의 기반 기능을 포함합니다.
Rust 버전 0.0.13이 출시되었습니다. 이 초기 버전은 Rust의 초기 개발 단계의 일부이며 언어의 기반 기능을 포함합니다.
Rust 버전 0.0.14가 출시되었습니다. 이 초기 버전은 Rust의 초기 개발 단계의 일부이며 언어의 기반 기능을 포함하고 있습니다.
LLaMA.cpp는 macOS, Linux, Android, Windows 및 openEuler용 바이너리를 여러 아키텍처에 대해 버전 b9729로 출시했습니다. 이번 릴리스에는 CPU, Vulkan, OpenVINO, SYCL 및 ROCm 지원이 포함되며 새로운 UI 패키지도 제공됩니다. 내부 'webui' 참조가 제거되었습니다.
LLaMA.cpp 버전 b9728은 --api-key-file 구성에서 주석 줄에 대한 지원을 도입했습니다. 이번 릴리스에는 Vulkan, CUDA, OpenVINO, SYCL을 포함한 여러 아키텍처 및 하드웨어 가속 옵션과 함께 macOS, Linux, Android, Windows 및 openEuler용 사전 빌드 바이너리가 포함되어 있습니다.
llama.cpp 버전 b9726은 새로운 --agent 인자를 도입하고 중복된 webui 명명 호환성을 제거했습니다. 이번 릴리스에는 macOS, Linux, Android, Windows 및 openEuler을 위한 미리 컴파일된 바이너리가 포함되어 있으며, 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
llama.cpp 버전 b9727은 cpp-httplib을 버전 0.48.0으로 업데이트합니다. 이번 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 바이너리가 포함되어 있으며, Vulkan, CUDA, OpenVINO 및 SYCL을 포함한 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
Docker 프로젝트는 UI 구성 요소 빌드를 위한 지원을 추가했습니다. 이 업데이트에는 컨테이너 구성에서 기존 APP_VERSION을 사용하는 것도 포함됩니다.
llama.cpp 버전 b9724에는 빌드 수정, area() 함수의 오버플로우 방지, get_u32() 내의 정합성 검사 등 여러 가지 버그 수정과 개선 사항이 포함되어 있습니다. 이 릴리스는 macOS (arm64 및 x64), Linux (x64, arm64, s390x, Vulkan, ROCm, OpenVINO, SYCL), Android (arm64), Windows (x64, arm64, CUDA 12/13, Vulkan, OpenVINO, SYCL, HIP) 및 openEuler (ACL Graph 지원이 있는 x86 및 aarch64) 에 대한 사전 빌드된 바이너리와 UI 패키지를 제공합니다.
llama.cpp 버전 b9723 은 Eagle3 를 통해 Qwen3.5 및 Qwen3.6 모델에 대한 지원을 도입했습니다. 이번 릴리스에는 하이브리드 모델을 위한 지연 경계 체크포인트 복원, API 및 명명 규칙 업데이트가 포함됩니다. macOS, Linux, Android, Windows, openEuler 플랫폼을 위한 바이너리 빌드가 사용 가능하며 CPU, Vulkan, OpenVINO, SYCL, ROCm 옵션이 있습니다.