Semua artikel
lab Microsoft Research Blog · 6 hari lalu

Memahami otak dengan penjelasan dan eksperimen berbasis AI

Para peneliti telah mengembangkan Pengujian Kausal Generatif (GCT), sebuah kerangka kerja yang menerjemahkan model prediksi otak berbasis LLM yang tidak dapat diinterpretasi menjadi hipotesis verbal singkat dan dapat diuji tentang fungsi kortikal. Metode ini memadatkan parameter model menjadi frasa-frasa pendek yang menggambarkan wilayah otak spesifik apa yang merespons, seperti "persiapan makanan," lalu memverifikasi penjelasan tersebut melalui eksperimen fMRI yang ditargetkan.

lab Cohere Blog · 6 hari lalu

Cohere Otomatisasi Tanggap Insiden dengan North dan Wiz melalui Server MCP Kustom

Cohere mengembangkan agen keamanan menggunakan platform AI enterprise-nya, Cohere North, yang terintegrasi dengan platform keamanan cloud Wiz melalui server Model Context Protocol (MCP) kustom. Arsitektur ini menghubungkan North ke API GraphQL Wiz melalui delapan alat atomik, memungkinkan alur kerja tanggap insiden otomatis dari satu prompt. Sistem melakukan analisis radius ledakan kombinasi beracun dengan mengevaluasi rantai serangan dan memeringkat risiko berdasarkan paparan internet dan tingkat hak akses dalam sekitar 20 detik. Sistem ini juga mengotomatisasi penyelidikan end-to-end dengan mengambil detail masalah, membuat tiket Linear, memperbarui status Wiz, dan menyusun laporan Tanggap Insiden terstruktur. Selain itu, otomatisasi terjadwal mingguan menghasilkan ringkasan posisi keamanan setiap Senin pagi tanpa intervensi manual. Integrasi ini menghilangkan loop triase sebelumnya yang memakan waktu 30 menit hingga dua jam per temuan, memungkinkan insinyur fokus pada evaluasi penilaian daripada peringatan mentah.

github llama.cpp · 7 hari lalu

llama.cpp b9788 menambahkan paralelisme tensor SYCL untuk konfigurasi dual-GPU

Rilis llama.cpp b9788 memperkenalkan dukungan untuk paralelisme tensor melalui flag --split-mode tensor di backend SYCL. Implementasi ini memungkinkan komunikasi dual-GPU dengan menambahkan fungsi comm_init, comm_free, dan comm_allreduce_tensor ke meta-backend. Untuk dua perangkat, ia menggunakan strategi ring all-reduce yang beralih antara memcpy langsung FP32 untuk tensor kecil dan kompresi BF16 untuk yang lebih besar. Kode menghindari OneCCL karena keterbatasannya pada satu perangkat per proses, alih-alih menggunakan buffer persisten untuk mempertahankan invarian pool SYCL. Pengujian kinerja pada dual Intel Arc Pro B70 GPUs menunjukkan percepatan signifikan dibandingkan mode layer untuk model Llama-3.3-70B dan Qwen3-Coder-Next-80B-A3B. Pembaruan ini mencakup biner baru untuk macOS, Linux, Windows, Android, dan openEuler di berbagai target CPU, CUDA, ROCm, Vulkan, dan SYCL.

github llama.cpp · 7 hari lalu

Rilis b9789 llama.cpp Memperbaiki Kuantisasi MoE dan Menyediakan Binari Multi-Platform

Proyek llama.cpp telah merilis versi b9789, yang mencakup perbaikan kritis untuk mengkuantisasi model Mixture of Experts (MoE) dengan prediksi multi-token. Pembaruan ini mengatasi masalah yang diidentifikasi dalam pull request #24986 untuk memastikan penanganan yang tepat dari arsitektur model spesifik tersebut. Rilis ini menyediakan binari pra-dibangun untuk macOS Apple Silicon dan Intel, serta iOS XCFramework. Pengguna Linux dapat mengunduh build untuk Ubuntu di berbagai backend CPU, Vulkan, ROCm 7.2, OpenVINO, dan SYCL. Dukungan Windows mencakup varian CPU, CUDA 12.4 dan 13.3, Vulkan, OpenVINO, SYCL, dan HIP. Platform tambahan seperti Android arm64 dan openEuler juga didukung dengan konfigurasi perangkat keras tertentu.