Tous les articles
lab Microsoft Research Blog · il y a 6 j

Comprendre le cerveau grâce à des explications et expériences pilotées par l'IA

Les chercheurs ont développé les Tests Causaux Génératifs (GCT), un cadre qui traduit des modèles de prédiction cérébrale basés sur des LLM non interprétables en hypothèses verbales concises et testables sur la fonction corticale. Cette méthode condense les paramètres du modèle en courtes phrases décrivant à quoi répondent des régions cérébrales spécifiques, comme la « préparation alimentaire », puis vérifie ces explications par le biais d'expériences IRMf ciblées.

lab Cohere Blog · il y a 6 j

Cohere automatise la réponse aux incidents avec North et Wiz via un serveur MCP personnalisé

Cohere a développé un agent de sécurité en utilisant sa plateforme d'IA entreprise, Cohere North, intégrée à la plateforme de sécurité cloud Wiz via un serveur Model Context Protocol (MCP) personnalisé. Cette architecture relie North à l'API GraphQL de Wiz via huit outils atomiques, permettant des workflows de réponse aux incidents automatisés à partir d'une seule invite. Le système effectue une analyse du rayon d'explosion des combinaisons toxiques en évaluant les chaînes d'attaque et en classant les risques en fonction de l'exposition internet et des niveaux de privilège en environ 20 secondes. Il automatise également l'enquête de bout en bout en récupérant les détails des problèmes, en créant des tickets Linear, en mettant à jour le statut de Wiz et en rédigeant des rapports structurés de réponse aux incidents. De plus, une automatisation hebdomadaire planifiée génère un bref sur la posture de sécurité chaque lundi matin sans intervention manuelle. Cette intégration élimine la boucle de tri précédente de 30 minutes à deux heures par découverte, permettant aux ingénieurs de se concentrer sur l'évaluation des analyses plutôt que sur les alertes brutes.

github llama.cpp · il y a 7 j

llama.cpp b9788 ajoute la parallélisation tensorielle SYCL pour les configurations à double GPU

La version b9788 de llama.cpp introduit le support de la parallélisation tensorielle via l'indicateur --split-mode tensor dans le backend SYCL. Cette implémentation permet la communication entre deux GPU en ajoutant les fonctions comm_init, comm_free et comm_allreduce_tensor au meta-backend. Pour deux appareils, elle utilise une stratégie d'all-reduce en anneau qui bascule entre memcpy direct FP32 pour les petits tenseurs et la compression BF16 pour les plus grands. Le code évite OneCCL en raison de sa limitation à un seul appareil par processus, utilisant plutôt des tampons persistants pour maintenir les invariants du pool SYCL. Les tests de performance sur deux GPU Intel Arc Pro B70 montrent des accélérations significatives par rapport au mode layer pour les modèles Llama-3.3-70B et Qwen3-Coder-Next-80B-A3B. La mise à jour inclut de nouveaux binaires pour macOS, Linux, Windows, Android et openEuler sur les cibles CPU, CUDA, ROCm, Vulkan et SYCL.

github llama.cpp · il y a 7 j

La version b9789 de llama.cpp corrige la quantification MoE et fournit des binaires multi-plateformes

Le projet llama.cpp a publié la version b9789, qui inclut une correction critique pour la quantification des modèles Mixture of Experts (MoE) avec prédiction multi-jeton. Cette mise à jour résout les problèmes identifiés dans la pull request #24986 afin de garantir un traitement approprié de ces architectures de modèles spécifiques. La version fournit des binaires préconstruits pour macOS Apple Silicon et Intel, ainsi qu'un iOS XCFramework. Les utilisateurs Linux peuvent télécharger des builds pour Ubuntu sur les backends CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL. Le support Windows inclut les variantes CPU, CUDA 12.4 et 13.3, Vulkan, OpenVINO, SYCL et HIP. Des plateformes supplémentaires telles que Android arm64 et openEuler sont également prises en charge avec des configurations matérielles spécifiques.