v0.5.14
L'article annonce la sortie de la version 0.5.14.
L'article annonce la sortie de la version 0.5.14.
La version 2.1.193 de Claude Code introduit plusieurs améliorations pour la classification en mode automatique, l'enregistrement des télémétries et la gestion des agents en arrière-plan. Cette mise à jour inclut également des correctifs pour les problèmes d'état de l'interface utilisateur, la gestion de l'authentification dans les serveurs MCP et divers bugs liés au fonctionnement en arrière-plan.
Cet article décrit une méthode pour automatiser la maintenance des forks logiciels à l'aide d'agents de codage par IA, en l'appliquant au fork de Cohere de vLLM. L'approche réduit le temps nécessaire pour absorber les versions amont de plusieurs semaines à quelques jours en remplaçant l'intervention manuelle par une boucle de rétroaction automatisée.
Les chercheurs ont développé les Tests Causaux Génératifs (GCT), un cadre qui traduit des modèles de prédiction cérébrale basés sur des LLM non interprétables en hypothèses verbales concises et testables sur la fonction corticale. Cette méthode condense les paramètres du modèle en courtes phrases décrivant à quoi répondent des régions cérébrales spécifiques, comme la « préparation alimentaire », puis vérifie ces explications par le biais d'expériences IRMf ciblées.
Google Finance quitte officiellement sa phase de bêta et lance une application dédiée pour les appareils Android.
Cette version candidate corrige la fonctionnalité Prefill/Decode (P/D) en conjonction avec le superviseur de parallélisme des données (DP) au sein du projet vLLM.
Cohere a développé un agent de sécurité en utilisant sa plateforme d'IA entreprise, Cohere North, intégrée à la plateforme de sécurité cloud Wiz via un serveur Model Context Protocol (MCP) personnalisé. Cette architecture relie North à l'API GraphQL de Wiz via huit outils atomiques, permettant des workflows de réponse aux incidents automatisés à partir d'une seule invite. Le système effectue une analyse du rayon d'explosion des combinaisons toxiques en évaluant les chaînes d'attaque et en classant les risques en fonction de l'exposition internet et des niveaux de privilège en environ 20 secondes. Il automatise également l'enquête de bout en bout en récupérant les détails des problèmes, en créant des tickets Linear, en mettant à jour le statut de Wiz et en rédigeant des rapports structurés de réponse aux incidents. De plus, une automatisation hebdomadaire planifiée génère un bref sur la posture de sécurité chaque lundi matin sans intervention manuelle. Cette intégration élimine la boucle de tri précédente de 30 minutes à deux heures par découverte, permettant aux ingénieurs de se concentrer sur l'évaluation des analyses plutôt que sur les alertes brutes.
Un nouveau document de recherche d'OpenAI démontre comment les agents d'intelligence artificielle changent fondamentalement la nature du travail. L'étude met en évidence la capacité de ces agents à exécuter des tâches plus longues et plus complexes qu'auparavant. Cette avancée technologique est créditée d'avoir élargi la productivité dans une grande variété de rôles professionnels. Les résultats suggèrent un changement significatif dans la façon dont le travail est organisé et accompli grâce à l'automatisation. En gérant des flux de travail complexes, les agents IA permettent aux utilisateurs d'atteindre une plus grande efficacité. Le document sert de preuve de l'impact croissant des systèmes autonomes sur l'emploi moderne.
La version 2.1.191 de Claude Code introduit le support de /rewind, permettant aux utilisateurs de reprendre les conversations avant l'exécution d'une commande /clear. La mise à jour corrige plusieurs problèmes critiques, notamment la résurrection des agents en arrière-plan après leur arrêt et le saut de la position de défilement pendant les réponses en streaming. Elle corrige également le comportement où /voice affichait des messages d'erreur génériques et où les URL /login étaient tronquées dans Windows Terminal. Des améliorations significatives renforcent la fiabilité des serveurs MCP en ajoutant une logique de retry pour les erreurs réseau transitoires lors de la découverte des capacités et des flux OAuth. Les environnements headless ignorent désormais les popups navigateur pour OAuth, tandis que les autorisations réseau du sandbox sont mémorisées pendant toute la durée de la session. Les optimisations de performance réduisent l'utilisation du CPU pendant le streaming d'environ 37 % grâce à la consolidation des mises à jour de texte et atténuent la croissance de la mémoire lors des sessions longues due au cache de sortie du terminal.
Google a introduit l'utilisation de l'ordinateur dans Gemini 3.5 Flash, permettant au modèle d'exécuter du code et d'interagir avec des outils externes. Cette fonctionnalité permet aux utilisateurs d'exécuter des tâches de programmation et d'accéder à des informations en temps réel grâce à des fonctions informatiques intégrées.
La version 2.1.190 inclut des corrections de bugs et des améliorations de fiabilité. Aucune nouvelle fonctionnalité n'est annoncée dans cette mise à jour.
Mistral Studio propose désormais des contrôles d'administration enrichis pour gérer l'accès aux connecteurs par espace de travail et par outil, permettant des permissions fines. Les fonctionnalités incluent des clés API avec des étendues, des connecteurs multi-comptes et un nouveau débogueur de connecteurs pour l'analyse des causes racines, le tout soutenant une intégration sécurisée et auditable avec les systèmes d'entreprise.
Talos est un outil open-source qui automatise la réanalyse itérative des données génomiques afin d'identifier les diagnostics de maladies rares. Il a atteint un taux de récupération de 90 % des diagnostics dans le périmètre avec seulement 1,3 variants candidats par patient, et a fourni 241 nouveaux diagnostics parmi 5 000 patients non diagnostiqués, la plupart des nouvelles découvertes apparaissant dans les 32 jours suivant la publication des preuves.
OpenAI et Broadcom ont présenté Jalapeño, une puce IA personnalisée conçue pour l'inférence des grands modèles de langage. La puce vise à améliorer les performances, l'efficacité et la scalabilité des systèmes d'IA.
vllm publie la version v0.24.0rc1, incluant une correction pour les problèmes de construction de l'histogramme topk sur SM75. Le changement a été cherry-pické depuis le commit 191826e et signé par Mohammad Miadh Angkad.
Claude v2.1.187 introduit le blocage des identifiants de bac à sable, les restrictions de modèle configurées par l'organisation, la prise en charge des clics de souris en plein écran, et des correctifs pour les échecs de commandes, les blocages d'outils et la stabilité de l'interface utilisateur. Les mises à jour améliorent également la gestion des sorties structurées, le suivi de la profondeur des agents et la gestion des plugins, avec des améliorations de la compatibilité VSCode et terminal.
OpenAI, par le biais de la Fondation Appia, fait progresser les normes partagées pour l'IA avancée en développant des cadres d'évaluation, des pratiques de sécurité et en promouvant la coopération mondiale.
Claude Tag permet aux équipes de taguer @Claude dans Slack pour déléguer des tâches, avec un accès à des canaux sélectionnés, des outils et des bases de code. Il apprend du contexte du canal, fonctionne de manière asynchrone et prend l'initiative en mettant proactivement à jour les utilisateurs sur les informations pertinentes. Aujourd'hui, 65 % du code de l'équipe produit d'Anthropic est créé par Claude Tag interne, et il est désormais disponible en bêta pour les clients Claude Enterprise et Team.
GPT-5 Pro a fourni des informations clés sur le comportement des lymphocytes T, résolvant une énigme immunologique vieille de 3 ans. Cette découverte pourrait faire avancer la recherche sur le cancer et les maladies auto-immunes.
Mistral OCR 4 introduit des boîtes englobantes, la classification de blocs et des scores de confiance en ligne pour 170 langues réparties en 10 groupes linguistiques. Il surpasse les principaux systèmes OCR dans les évaluations de préférence humaine avec un taux de victoire de 72 % et obtient le meilleur score sur OlmOCRBench (85,20), tout en offrant un déploiement auto-hébergé dans un seul conteneur et en prenant en charge des cas d'utilisation enterprise comme RAG et l'ingestion de documents.