전체 기사
lab Microsoft Research Blog · 6일 전

AI 기반 설명과 실험으로 뇌 이해하기

연구자들은 해석 불가능한 LLM 기반 뇌 예측 모델을 피질 기능에 대한 간결하고 검증 가능한 언어 가설로 변환하는 프레임워크인 생성 인과 테스트(GCT)를 개발했습니다. 이 방법은 특정 뇌 영역이 "음식 준비"와 같은 것에 반응한다는 것을 설명하는 짧은 구절로 모델 매개변수를 압축한 후, 표적 fMRI 실험을 통해 이러한 설명을 검증합니다.

lab Cohere Blog · 6일 전

Cohere, 커스텀 MCP 서버를 통해 North와 Wiz로 인시던트 대응 자동화

Cohere는 엔터프라이즈 AI 플랫폼인 Cohere North를 사용하여 보안 에이전트를 개발했으며, 이는 커스텀 Model Context Protocol (MCP) 서버를 통해 클라우드 보안 플랫폼 Wiz와 통합되었습니다. 이 아키텍처는 8개의 원자적 도구를 통해 North를 Wiz의 GraphQL API에 연결하여 단일 프롬프트에서 인시던트 대응 워크플로우를 자동화합니다. 시스템은 약 20초 만에 공격 체인을 평가하고 인터넷 노출 및 권한 수준을 기반으로 위험도를 순위 매김하여 유해한 조합의 폭발 반경 분석을 수행합니다. 또한 이슈 세부 정보 검색, Linear 티켓 생성, Wiz 상태 업데이트, 구조화된 인시던트 대응 보고서 작성을 통해 종단 간 조사를 자동화합니다. 추가로 매주 월요일 아침 수동 개입 없이 보안 포지션 브리핑을 생성하는 예약된 주간 자동화가 제공됩니다. 이 통합은 각 발견 사항당 30분에서 2시간에 걸친 이전의 분류 루프를 제거하여 엔지니어가 원시 알림이 아닌 평가 검토에 집중할 수 있도록 합니다.

github llama.cpp · 7일 전

llama.cpp b9788, 듀얼 GPU 환경용 SYCL 텐서 병렬성 추가

llama.cpp의 릴리스 b9788은 SYCL 백엔드에서 --split-mode tensor 플래그를 통해 텐서 병렬성에 대한 지원을 도입합니다. 이 구현은 meta-백엔드에 comm_init, comm_free 및 comm_allreduce_tensor 함수를 추가하여 듀얼 GPU 간 통신을 가능하게 합니다. 두 장치의 경우, 작은 텐서는 FP32 직접 memcpy로, 큰 텐서는 BF16 압축으로 전환하는 링 all-reduce 전략을 사용합니다. 이 코드는 단일 프로세스당 단일 장치라는 제한 사항으로 인해 OneCCL을 피하고 대신 영구 버퍼를 사용하여 SYCL 풀 불변성을 유지합니다. 듀얼 Intel Arc Pro B70 GPU에서의 성능 테스트는 Llama-3.3-70B 및 Qwen3-Coder-Next-80B-A3B 모델에 대해 레이어 모드 대비 상당한 속도 향상을 보여줍니다. 이 업데이트에는 CPU, CUDA, ROCm, Vulkan 및 SYCL 타겟을 위한 macOS, Linux, Windows, Android 및 openEuler용 새로운 바이너리가 포함되어 있습니다.

github llama.cpp · 7일 전

llama.cpp b9789 릴리스는 MoE 양자화 수정 및 멀티플랫폼 바이너리 제공

llama.cpp 프로젝트가 혼합 전문가(MoE) 모델을 멀티 토큰 예측으로 양자화하는 것에 대한 중요한 수정을 포함한 버전 b9789를 출시했습니다. 이 업데이트는 이러한 특정 모델 아키텍처의 적절한 처리를 보장하기 위해 풀 리퀘스트 #24986에서 식별된 문제를 해결합니다. 이번 릴리스는 macOS Apple Silicon 및 Intel용 사전 빌드 바이너리와 iOS XCFramework를 제공합니다. Linux 사용자는 CPU, Vulkan, ROCm 7.2, OpenVINO 및 SYCL 백엔드에 대한 Ubuntu 빌드를 다운로드할 수 있습니다. Windows 지원에는 CPU, CUDA 12.4 및 13.3, Vulkan, OpenVINO, SYCL 및 HIP 변형이 포함됩니다. Android arm64 및 openEuler와 같은 추가 플랫폼도 특정 하드웨어 구성으로 지원됩니다.