Tous les articles — korshunov.ai

Tous les articles Page 1 / 16

Notes de version MCP Python SDK v2.0.0a3

Le SDK Python du protocole Model Context Protocol (MCP) a publié sa troisième version alpha, v2.0.0a3, introduisant des changements significatifs au niveau du protocole et de l'architecture tout en maintenant la compatibilité ascendante pour les utilisateurs stables de la série 1.x.

github llama.cpp · il y a 6 j

llama.cpp b9804 release : corrections de Mamba2 et nouveaux binaires

La version b9804 de llama.cpp introduit une correction pour l'architecture Mamba2 en supprimant un facteur d'expansion codé en dur de 2x et une vérification de paramètre invalide, permettant ainsi le support de n'importe quelle valeur d'expansion. Cette modification met à jour le script `convert_hf_to_gguf.py` pour rendre le paramètre expand optionnel avec une valeur par défaut de 2.

media Hugging Face Forums · il y a 6 j

JoeBro : un espace de travail IA natif pour macOS sans dépendances

JoeBro est une application native pour macOS, conçue en priorité locale, destinée à fournir un espace de travail d'IA sans nécessiter de dépendances externes comme pip ou Docker. Elle intègre un backend Python et un stockage SQLite pour garantir que toutes les données restent sur la machine de l'utilisateur, éliminant ainsi toute télémétrie et tout compte requis.

media Hugging Face Forums · il y a 6 j

Comment puis-je ajouter quelqu'un à un jeu de données/base de données Hugging Face ?

Le contenu source fourni indique que le sujet du message original a été supprimé par l'auteur. Par conséquent, aucune information spécifique concernant le processus d'ajout d'utilisateurs à un jeu de données ou une base de données Hugging Face n'est disponible dans cet extrait.

github CrewAI · il y a 6 j

Notes de version de crewAI 1.15.0

La version 1.15.0 de crewAI introduit des améliorations significatives aux définitions de Flow, y compris le chargement déclaratif unifié, le support inline des crews et de nouvelles actions composites comme `each` et les actions à agent unique.

github llama.cpp · il y a 6 j

llama.cpp b9803 avec correction de profilage OpenCL

Le projet llama.cpp a publié la version b9803, qui inclut une correction pour OpenCL afin de vider les lots de profilage à l'arrêt pour les lots incomplets. Cette mise à jour fournit des binaires pour macOS, Linux, Windows, Android et openEuler sur divers backends matériels.

github AutoGPT · il y a 6 j

Notes de version de la bêta v0.6.65 de la plateforme AutoGPT

La plateforme AutoGPT a publié la version 0.6.65, introduisant des mises à jour significatives du système Copilot, de la navigation de l'interface utilisateur et de la fiabilité de l'infrastructure.

github llama.cpp · il y a 6 j

La version b9802 de llama.cpp fournit des binaires pour macOS, Linux, Windows et Android

Le projet llama.cpp a publié la version b9802, offrant des binaires préconstruits sur plusieurs systèmes d'exploitation et architectures matérielles. Cette mise à jour inclut le support du CPU, du GPU et des accélérateurs IA spécialisés sur des plateformes telles que macOS, Linux, Windows, Android et openEuler.

github SGLang · il y a 6 j

v0.5.14

L'article annonce la sortie de la version 0.5.14.

lab Claude Code Releases · il y a 6 j

Notes de version Claude Code v2.1.193

La version 2.1.193 de Claude Code introduit plusieurs améliorations pour la classification en mode automatique, l'enregistrement des télémétries et la gestion des agents en arrière-plan. Cette mise à jour inclut également des correctifs pour les problèmes d'état de l'interface utilisateur, la gestion de l'authentification dans les serveurs MCP et divers bugs liés au fonctionnement en arrière-plan.

lab Cohere Blog · il y a 7 j

Automatisation de la maintenance des forks avec des agents IA

Cet article décrit une méthode pour automatiser la maintenance des forks logiciels à l'aide d'agents de codage par IA, en l'appliquant au fork de Cohere de vLLM. L'approche réduit le temps nécessaire pour absorber les versions amont de plusieurs semaines à quelques jours en remplaçant l'intervention manuelle par une boucle de rétroaction automatisée.

github Goose (Block) · il y a 7 j

v1.39.0

Cette version tente de corriger la compilation Flatpak.

lab Microsoft Research Blog · il y a 7 j

Comprendre le cerveau grâce à des explications et expériences pilotées par l'IA

Les chercheurs ont développé les Tests Causaux Génératifs (GCT), un cadre qui traduit des modèles de prédiction cérébrale basés sur des LLM non interprétables en hypothèses verbales concises et testables sur la fonction corticale. Cette méthode condense les paramètres du modèle en courtes phrases décrivant à quoi répondent des régions cérébrales spécifiques, comme la « préparation alimentaire », puis vérifie ces explications par le biais d'expériences IRMf ciblées.

lab Google — The Keyword (AI) · il y a 7 j

Google Finance quitte la bêta avec une nouvelle application Android

Google Finance quitte officiellement sa phase de bêta et lance une application dédiée pour les appareils Android.

lab Hugging Face Blog · il y a 7 j

Exécuter un serveur vLLM sur HF Jobs en une seule commande

Hugging Face a introduit une nouvelle fonctionnalité permettant aux utilisateurs de déployer des serveurs vLLM directement via la plateforme Hugging Face Jobs en utilisant une seule commande.

github vLLM · il y a 7 j

v0.24.0rc2 : Correction de P/D avec le superviseur DP (#46628)

Cette version candidate corrige la fonctionnalité Prefill/Decode (P/D) en conjonction avec le superviseur de parallélisme des données (DP) au sein du projet vLLM.

github CrewAI · il y a 7 j

Notes de version de crewAI 1.14.8a5

La mise à jour de la version 1.14.8a5 de crewAI introduit des modifications à la gestion de l'état du flux, des mises à jour de documentation et des efforts de refactorisation.

lab Hugging Face Blog · il y a 7 j

Analyse de la précision de prédiction des tokens dans les modèles linguistiques hybrides

Une étude récente examine quels tokens spécifiques sont prédits plus précisément par les modèles linguistiques hybrides par rapport aux architectures denses standard. La recherche se concentre sur la compréhension de la distribution des erreurs de prédiction à travers différents types de tokens, tels que les mots rares et les extraits de code. En analysant les paysages de perte, les auteurs identifient que les modèles hybrides excellent à capturer les dépendances à longue portée dans les régions de données clairsemées. Les résultats suggèrent que le mécanisme de mélange d'experts permet une utilisation plus efficace des paramètres lors de l'inférence. Cette précision améliorée est particulièrement notable pour les tokens de faible fréquence dans le corpus d'entraînement. L'article fournit une décomposition détaillée des métriques de performance sur divers ensembles de données de référence. Ces résultats mettent en évidence le potentiel des architectures hybrides pour gérer efficacement des structures linguistiques diverses.

lab Cohere Blog · il y a 7 j

Cohere automatise la réponse aux incidents avec North et Wiz via un serveur MCP personnalisé

Cohere a développé un agent de sécurité en utilisant sa plateforme d'IA entreprise, Cohere North, intégrée à la plateforme de sécurité cloud Wiz via un serveur Model Context Protocol (MCP) personnalisé. Cette architecture relie North à l'API GraphQL de Wiz via huit outils atomiques, permettant des workflows de réponse aux incidents automatisés à partir d'une seule invite. Le système effectue une analyse du rayon d'explosion des combinaisons toxiques en évaluant les chaînes d'attaque et en classant les risques en fonction de l'exposition internet et des niveaux de privilège en environ 20 secondes. Il automatise également l'enquête de bout en bout en récupérant les détails des problèmes, en créant des tickets Linear, en mettant à jour le statut de Wiz et en rédigeant des rapports structurés de réponse aux incidents. De plus, une automatisation hebdomadaire planifiée génère un bref sur la posture de sécurité chaque lundi matin sans intervention manuelle. Cette intégration élimine la boucle de tri précédente de 30 minutes à deux heures par découverte, permettant aux ingénieurs de se concentrer sur l'évaluation des analyses plutôt que sur les alertes brutes.

github llama.cpp · il y a 7 j

llama.cpp b9788 ajoute la parallélisation tensorielle SYCL pour les configurations à double GPU

La version b9788 de llama.cpp introduit le support de la parallélisation tensorielle via l'indicateur --split-mode tensor dans le backend SYCL. Cette implémentation permet la communication entre deux GPU en ajoutant les fonctions comm_init, comm_free et comm_allreduce_tensor au meta-backend. Pour deux appareils, elle utilise une stratégie d'all-reduce en anneau qui bascule entre memcpy direct FP32 pour les petits tenseurs et la compression BF16 pour les plus grands. Le code évite OneCCL en raison de sa limitation à un seul appareil par processus, utilisant plutôt des tampons persistants pour maintenir les invariants du pool SYCL. Les tests de performance sur deux GPU Intel Arc Pro B70 montrent des accélérations significatives par rapport au mode layer pour les modèles Llama-3.3-70B et Qwen3-Coder-Next-80B-A3B. La mise à jour inclut de nouveaux binaires pour macOS, Linux, Windows, Android et openEuler sur les cibles CPU, CUDA, ROCm, Vulkan et SYCL.