llama.cpp b9827 릴리스에 CUDA 2D 비동기 복사 최적화가 추가됨
llama.cpp b9827 릴리스는 ggml_cuda_cpy 함수에 cudaMemcpy2DAsync 빠른 경로를 추가하여 CUDA의 성능을 최적화합니다. 이 변경은 텐서가 완전히 연속적이지 않지만 각 행이 연속적인 경우, 느린 요소별 스칼라 복사 커널을 대체하여 동일한 타입과 동일한 모양의 스트라이드 복사를 가속화합니다.
llama.cpp b9827 릴리스는 ggml_cuda_cpy 함수에 cudaMemcpy2DAsync 빠른 경로를 추가하여 CUDA의 성능을 최적화합니다. 이 변경은 텐서가 완전히 연속적이지 않지만 각 행이 연속적인 경우, 느린 요소별 스칼라 복사 커널을 대체하여 동일한 타입과 동일한 모양의 스트라이드 복사를 가속화합니다.
llama.cpp 프로젝트가 제로 입력 처리 시 Vulkan 단계 연산자를 수정한 버전 b9825를 출시했습니다. 이 업데이트는 다양한 하드웨어 백엔드에서 macOS, Linux, Windows, Android, openEuler용 사전 빌드 바이너리를 제공합니다.
llama.cpp 프로젝트는 SYCL의 norm 함수와 관련된 단위 테스트 실패를 수정한 b9826 릴리스를 게시했습니다. 이 업데이트는 여러 플랫폼과 하드웨어 가속기에서 사전 빌드된 바이너리와 프레임워크를 제공합니다.
llama.cpp 프로젝트는 macOS, iOS, Linux, Android 및 Windows용 사전 빌드된 바이너리를 제공하는 b9822 릴리스를 게시했습니다. 이 업데이트에는 test-chat-template --no-common 옵션에 대한 수정 사항이 포함되어 있으며 다양한 하드웨어 아키텍처와 가속기에서 빌드를 배포합니다.
llama.cpp 프로젝트는 macOS, iOS, Linux, Android, Windows, openEuler 플랫폼을 위한 사전 빌드된 바이너리를 제공하는 버전 b9823을 게시했습니다. 이번 릴리스의 주요 변경 사항은 check-release 파이프라인에 Windows OpenVINO 빌드를 추가한 것입니다.
llama.cpp 프로젝트는 rpc-server와 export-graph-ops 바이너리에 대한 개선 사항을 포함한 버전 b9824를 출시했습니다. `export-graph-ops` 도구는 테스트 명명 규칙을 따르도록 이름이 변경되었으며, 시스템 디렉토리 내 충돌을 피하기 위해 `rpc-server`는 `ggml-rpc-server`로 이름이 변경되었습니다.
v0.24.0 릴리스에는 MoE 리팩토링 Qwen3 NVFP4 구성에 대한 GSM8K 시작 시간 초과를 늘리기 위한 지속적인 통합 업데이트가 포함됩니다.
OpenAI는 GPT-5.6 시리즈의 제한된 미리보기를 시작했으며, 플래그십인 Sol, 균형 잡힌 일상 작업을 위한 Terra, 빠르고 저렴한 작업을 위한 Luna 등 세 가지 새로운 모델을 소개했습니다. 이 초기 단계를 거친 후 수주 내에 신뢰할 수 있는 파트너들과 함께 이러한 모델들을 일반 공개할 계획입니다.
Claude Code 버전 2.1.195는 여러 수정 사항과 개선 사항을 도입했으며, 여기에는 전체 화면 모드에서 마우스 제어를 위한 새로운 환경 변수와 후크 매처 로직의 정정이 포함됩니다.
llama.cpp b9820 릴리스는 분할 계산 중 동기화를 줄임으로써 성능을 개선했으며, 특히 CUDA 백엔드를 대상으로 합니다. 이 업데이트는 CPU, GPU, 특수 하드웨어 가속기를 위한 macOS, Linux, Windows, Android, openEuler용 사전 빌드 바이너리를 제공합니다.
Model Context Protocol (MCP) Python SDK가 세 번째 알파 버전인 v2.0.0a3를 출시했으며, 이는 안정적인 1.x 사용자를 위한 하위 호환성을 유지하면서 상당한 프로토콜 및 아키텍처 변경 사항을 도입했습니다.
Model Context Protocol Python SDK가 버전 1.28.1을 출시하여 스트림 처리 및 전송 보안에 대한 업데이트를 도입했습니다.
본 기사에서는 버전 0.5.14의 출시를 발표합니다.
Claude Code 버전 2.1.193은 자동 모드 분류, 텔레메트리 로깅 및 백그라운드 에이전트 관리에 여러 개선을 도입합니다. 이 업데이트에는 UI 상태 문제, MCP 서버의 인증 처리, 다양한 백그라운딩 버그 수정도 포함됩니다.
이 글은 AI 코딩 에이전트를 사용하여 소프트웨어 포크의 유지보수를 자동화하는 방법을 설명하며, Cohere의 vLLM 포크에 이를 적용합니다. 이 접근 방식은 수동 개입을 자동화된 피드백 루프로 대체함으로써 상위 저장소(upstream) 릴리스를 통합하는 데 걸리는 시간을 주에서 일로 단축합니다.
연구자들은 해석 불가능한 LLM 기반 뇌 예측 모델을 피질 기능에 대한 간결하고 검증 가능한 언어 가설로 변환하는 프레임워크인 생성 인과 테스트(GCT)를 개발했습니다. 이 방법은 특정 뇌 영역이 "음식 준비"와 같은 것에 반응한다는 것을 설명하는 짧은 구절로 모델 매개변수를 압축한 후, 표적 fMRI 실험을 통해 이러한 설명을 검증합니다.
구글 파이낸스가 공식적으로 베타 단계를 벗어나 안드로이드 기기를 위한 전용 애플리케이션을 출시합니다.
이 릴리스 후보는 vLLM 프로젝트 내에서 데이터 병렬화(DP) Supervisor와 함께 Prefill/Decode(P/D) 기능에 대한 수정을 다룹니다.
Cohere는 엔터프라이즈 AI 플랫폼인 Cohere North를 사용하여 보안 에이전트를 개발했으며, 이는 커스텀 Model Context Protocol (MCP) 서버를 통해 클라우드 보안 플랫폼 Wiz와 통합되었습니다. 이 아키텍처는 8개의 원자적 도구를 통해 North를 Wiz의 GraphQL API에 연결하여 단일 프롬프트에서 인시던트 대응 워크플로우를 자동화합니다. 시스템은 약 20초 만에 공격 체인을 평가하고 인터넷 노출 및 권한 수준을 기반으로 위험도를 순위 매김하여 유해한 조합의 폭발 반경 분석을 수행합니다. 또한 이슈 세부 정보 검색, Linear 티켓 생성, Wiz 상태 업데이트, 구조화된 인시던트 대응 보고서 작성을 통해 종단 간 조사를 자동화합니다. 추가로 매주 월요일 아침 수동 개입 없이 보안 포지션 브리핑을 생성하는 예약된 주간 자동화가 제공됩니다. 이 통합은 각 발견 사항당 30분에서 2시간에 걸친 이전의 분류 루프를 제거하여 엔지니어가 원시 알림이 아닌 평가 검토에 집중할 수 있도록 합니다.
OpenAI의 새로운 연구 논문은 인공지능 에이전트들이 업무의 본질을 근본적으로 어떻게 변화시키고 있는지 보여줍니다. 이 연구는 이러한 에이전트들이 이전보다 더 길고 복잡한 작업을 수행할 수 있는 능력을 강조합니다. 이 기술적 진보는 광범위한 전문 직군 전반에 걸쳐 생산성을 확장한 것으로 평가됩니다. 연구 결과는 자동화를 통해 노동이 조직되고 수행되는 방식에 상당한 변화가 있음을 시사합니다. AI 에이전트는 복잡한 워크플로우를 처리함으로써 사용자가 더 높은 효율을 달성할 수 있도록 지원합니다. 이 논문은 자율 시스템이 현대 고용에 미치는 영향이 커지고 있다는 증거로 작용합니다.