Power10 MMA Q8/Q4 에 대한 ggml-cpu 의 K tails 지원 추가
ggml-cpu 는 이제 Power10 Q8/Q4 MMA 행렬 곱셈에서 K tails 를 지원하여 K 가 kc 로 나누어떨어져야 한다는 요구사항을 제거했습니다. 이를 통해 더 많은 워크로드가 MMA 커널을 사용할 수 있게 되며 mnpack 으로의 폴백이 줄어듭니다.
ggml-cpu 는 이제 Power10 Q8/Q4 MMA 행렬 곱셈에서 K tails 를 지원하여 K 가 kc 로 나누어떨어져야 한다는 요구사항을 제거했습니다. 이를 통해 더 많은 워크로드가 MMA 커널을 사용할 수 있게 되며 mnpack 으로의 폴백이 줄어듭니다.
v0.17.6 릴리스는 사전 승인 도구 입력 가드레일과 도구 출력을 위한 SDK 전용 사용자 지정 데이터를 추가합니다. 또한 도구 출력에 대해 엄격한 JSON 호환 계약을 강제하고 도구 이름의 불필요한 공백 경고를 억제합니다. @siddiksawani 는 이번 릴리스에서 첫 기여를 했습니다.
llama.cpp 버전 b9716은 효율적인 배치 처리를 통해 모델 성능을 향상시키는 InternVL에 대한 배치 처리 지원을 도입했습니다. 이 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 바이너리 빌드가 포함되어 있으며, Vulkan, OpenVINO, SYCL 및 ROCm을 포함한 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
llama.cpp가 mtmd-cli에 배치 처리 지원과 비디오 테스트를 추가한 버전 b9713을 출시했습니다. 이번 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 바이너리가 포함되어 있으며, Vulkan, CUDA, OpenVINO, SYCL을 포함한 다양한 아키텍처와 하드웨어 가속 옵션을 지원합니다.
llama.cpp 버전 b9714는 스트리밍 엔드포인트에 "X-Accel-Buffering": "no" 헤더를 추가하여 Nginx가 응답을 버퍼링하는 것을 방지하고, Pi 코딩 하니스와 같은 애플리케이션의 스트리밍 문제를 해결했습니다. 이 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 바이너리가 포함되어 있으며, 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
LLaMA.cpp 버전 b9715는 CPU 구현을 기반으로 GGML_OP_COL2IM_1D에 대한 CUDA 지원을 도입했습니다. 이번 릴리스에는 macOS, Linux, Android, Windows, openEuler용 바이너리가 포함되어 있으며, Vulkan, ROCm, OpenVINO, SYCL을 포함한 여러 아키텍처 및 가속 프레임워크를 지원합니다.
v1.14.8a2는 Flow 정의에 단일 에이전트 작업을 추가하고 로드 시점에 CEL 표현식을 검증합니다. 이 버전에는 가져올 수 있는 운영 대시보드가 포함된 새로운 Datadog 통합 가이드와 v1.14.8a1의 업데이트된 스냅샷 및 변경 로그가 포함되어 있습니다.
llama.cpp가 macOS, Linux, Android, Windows, openEuler용 업데이트된 바이너리를 포함한 버전 b9711을 출시했습니다. 이번 릴리스에는 ARM64, x64, Vulkan, ROCm, OpenVINO, SYCL, HIP 지원이 포함되어 있으며 CPU 및 GPU 가속을 위한 전용 바이너리가 제공됩니다. 새로운 UI 패키지도 제공됩니다.
llama.cpp 버전 b9712에는 읽기 전용 소스 파일로 인해 발생한 UI 빌드 문제에 대한 수정이 포함되어 있습니다. 이 릴리스는 Vulkan, CUDA, OpenVINO 및 SYCL을 포함한 여러 아키텍처 및 하드웨어 가속 옵션에 대해 macOS, Linux, Android, Windows 및 openEuler용 사전 빌드된 바이너리를 제공합니다.
v2.1.183은 명시적인 사용자 동의 없이 파괴적인 git 및 destroy 명령을 차단하여 자동 모드 안전성을 개선했습니다. 모델에 대한 사용 중단 경고(deprecation warnings)를 추가하고, attribution.sessionUrl을 통해 세션 링크를 숨기며, 터미널 동작, 서브에이전트 성능, 웹 및 tmux 환경에서의 입력 처리를 포함한 여러 문제를 수정했습니다.
llama.cpp 버전 b9707은 스키마 검증과 오류 메시지 개선을 도입했습니다. macOS, Linux, Android, Windows 및 openEuler용 바이너리 빌드를 포함하며, 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
LangGraph가 버전 1.2.6을 출시했습니다. 이 업데이트는 중첩된 서브그래프가 부모의 checkpoint_ns를 잘못 상속하는 회귀 문제를 수정합니다. 또한 스트림 중단 시 실행 중인 서브그래프의 취소 기능을 개선했으며, CLI 버전도 0.4.30으로 업데이트되었습니다.
버전 1.14.8a1 은 각.do 단계에 선택적 if 식을 추가하고 JSON crew 문제를 수정했습니다. v1.14.8a 의 스냅샷 및 변경 로그가 업데이트되었습니다. 기여자에는 @joaomdmoura 와 @vinibrsl 이 포함됩니다.
llama.cpp 버전 b9703에는 서버의 프리셋 처리 재작업이 포함되어 있으며, 원격 HF 프리셋 지원과 더 이상 사용되지 않는 함수가 제거되었습니다. 이 릴리스는 macOS, Linux, Android, Windows 및 openEuler용 바이너리를 제공하며, Vulkan, CUDA, OpenVINO 및 SYCL을 포함한 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
llama.cpp 버전 b9704는 이제 제약을 조용히 무시하는 대신 잘못된 구문에 대해 HTTP 400을 반환합니다. 이 릴리스에는 macOS, Linux, Android, Windows, openEuler용 바이너리가 포함되어 있으며, 여러 아키텍처와 하드웨어 가속기를 지원하고 Vulkan, ROCm, OpenVINO, SYCL, CUDA를 지원합니다.
llama.cpp 버전 b9702에는 라우터 인수가 하위 인스턴스로 전달되지 않는 문제를 수정했습니다. 이 릴리스는 Vulkan, ROCm, OpenVINO, SYCL을 포함한 여러 아키텍처 및 하드웨어 가속 옵션에 대해 macOS, Linux, Android, Windows, openEuler용 바이너리를 제공합니다.
llama.cpp 버전 b9701은 새로운 mtmd_image_preproc_out 기능과 업데이트된 개발자 문서를 갖춘 리팩토링된 전처리를 도입했습니다. 이번 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 바이너리가 포함되어 있으며 Vulkan, CUDA, OpenVINO 및 SYCL을 포함한 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
llama.cpp 버전 b9700 은 이름이 변경된 API 플래그와 함께 업데이트된 SYCL 지원을 도입했습니다. GGML_SYCL_SUPPORT_LEVEL_ZERO 가 GGML_SYCL_SUPPORT_LEVEL_ZERO_API 로, GGML_SYCL_ENABLE_LEVEL_ZERO 가 GGML_SYCL_USE_LEVEL_ZERO_API 로 이름이 변경되었습니다. 이 릴리스에는 macOS, Linux, Android, Windows 및 openEuler 에 대한 바이너리가 포함되어 있으며 Vulkan, ROCm, OpenVINO 및 SYCL 을 포함한 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.
LLaMA.cpp 버전 b9698은 llama-install.sh로 빌드된 경우에만 자체 업데이트를 활성화합니다. 이번 릴리스에는 macOS, Linux, Android, Windows, openEuler용 바이너리가 포함되어 있으며, Vulkan, CUDA, OpenVINO, SYCL을 포함한 여러 아키텍처 및 하드웨어 가속 옵션을 지원합니다.
llama.cpp version b9699 introduces support for MUL_MAT and OUT_PROD operations with Q1_0 precision via PR #24721. The release includes precompiled binaries for macOS, Linux, Android, Windows, and openEuler across multiple architectures and acceleration frameworks, including SYCL (FP32 and FP16), Vulkan, CUDA, ROCm, and OpenVINO.