Wmf - une nouvelle technique expérimentale
Le contenu de l'article a été supprimé par l'auteur, ne laissant aucune information substantielle concernant la technique.
Le contenu de l'article a été supprimé par l'auteur, ne laissant aucune information substantielle concernant la technique.
Un non-programmeur partage son expérience de mise en place d'une infrastructure de modèle linguistique large (LLM) local sur un MacBook M5 Max avec 128 Go de mémoire unifiée. L'utilisateur détaille sa pile logicielle, ses sélections de modèles et ses objectifs pour apprendre l'IA tout en établissant un système stable et accessible à distance.
Together AI présente neuf articles à l'ICML 2026 qui couvrent la pleine pile du développement de sa plateforme.
Hugging Face et Cerebras ont intégré le modèle Gemma 4 de Google dans leurs plateformes pour permettre des applications d'intelligence artificielle vocale en temps réel. Cette collaboration permet aux développeurs d'exploiter les capacités multimodales de Gemma 4 pour des tâches de traitement audio à faible latence.
L'entreprise a levé 800 millions de dollars dans le cadre d'un tour de table de série C visant à accélérer la transition vers l'intelligence artificielle open source.
Cet article présente ScarfBench, un benchmark conçu pour évaluer les performances des agents IA lors de la migration d'applications Java d'entreprise entre différents frameworks. L'étude met en évidence la complexité de la migration de framework et propose une méthode d'évaluation standardisée pour évaluer les capacités des agents dans ce domaine.
La version 1.15.2a1 de crewAI introduit plusieurs nouvelles fonctionnalités, corrections de bugs et mises à jour de documentation pour le framework d'orchestration d'agents.
Cet article présente un résumé des mises à jour et annonces en intelligence artificielle publiées par Google au cours du mois de juin 2026.
La release b9859 de llama.cpp introduit la capacité de charger des noyaux binaires précompilés depuis des bibliothèques pour OpenCL, ciblant spécifiquement les GPU Adreno. Cette mise à jour fournit également des binaires pour macOS, Linux, Windows, Android et openEuler sur CPU, GPU et divers backends d'accélérateur.
xAI a annoncé la version bêta de Voice Agent Builder, une plateforme sans code conçue pour configurer des agents vocaux de niveau production sur Grok Voice en moins de deux minutes. Cet outil permet aux opérateurs et développeurs de déployer des agents vocaux à fort volume sans avoir à construire la pile télécom ou IA sous-jacente à partir de zéro.
Le projet llama.cpp a publié la version b9858, qui inclut un changement pour utiliser le split principal de Hugging Face comme chemin du modèle. Cette mise à jour résout l'issue #25181 concernant les chemins de chargement des modèles.
La version b9857 de llama.cpp introduit une refonte complète de l'implémentation Hexagon Flash Attention, axée sur les optimisations et les améliorations de précision. Cette mise à jour comprend des modifications significatives des modules hex-mm et hex-fa, telles que le regroupement des tâches de quantification dans les threads principaux de matmul, la fusion avec les opérations ADD et l'optimisation du traitement des masques.
Le projet llama.cpp a publié la version b9855, qui introduit une optimisation AVX2 pour le produit scalaire nvfp4 en utilisant une table de consultation (LUT) UE4M3 dans le backend ggml-cpu.
Le projet llama.cpp a publié la version b9856, introduisant une utilisation cohérente du mot-clé `restrict` et de PDL pour Flash Attention dans CUDA. Cette mise à jour est accompagnée de binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur divers backends matériels.
La mise à jour supprime le mécanisme de fallback de navigation Progressive Web App (PWA). Ce changement est mis en œuvre spécifiquement pour empêcher la mise en cache non intentionnelle des requêtes d'endpoint API.
Le projet llama.cpp a publié la version b9852, introduisant un support initial d'OpenCL pour le format de quantisation q1_0. Cette mise à jour inclut des capacités générales pour q1_0 et des implémentations spécifiques de GEMM/GEMV Adreno pour les appareils OpenCL.
Anthropic restaure l'accès mondial à ses modèles Claude Fable 5 et Mythos 5 après que le gouvernement américain a levé les contrôles à l'exportation qui avaient suspendu la disponibilité pour tous les utilisateurs. Fable 5 sera disponible mondialement à partir du 1er juillet sur la plateforme Claude, avec des limites d'utilisation applicables jusqu'au 7 juillet avant de passer à un accès basé sur les crédits.
Le projet llama.cpp a publié la version b9851, qui inclut une correction pour CUDA afin d'éviter les erreurs de troncature entière et de débordement dans le kernel flash_attn_mask_to_KV_max. Cette mise à jour traite des problèmes liés aux pas de masque KQ au sein du kernel spécifié.
La version b9850 de llama.cpp introduit des mises à jour spécifiques du support des modèles, notamment l'enregistrement du tenseur t_layer_inp pour Qwen3Next, la correction de l'affectation d'entrée dans la boucle de traitement des couches, et la résolution des problèmes DFLASH pour qwen-coder-next. Elle ajoute également un tenseur pour la normalisation de l'attention dans le modèle Qwen3.
Le SDK Python du Model Context Protocol (MCP) a publié sa première version bêta, v2.0.0b1, qui introduit une prise en charge complète de la spécification MCP 2026-07-28. Cette préversion est uniquement activable par l'utilisateur, garantissant que les installations standard continuent de se résoudre vers la branche stable 1.x.