La version b9847 de llama.cpp corrige Gemma E4B MTP FlashAttention
Le projet llama.cpp a publié la version b9847, qui inclut une correction pour Gemma E4B MTP FlashAttention sur CUDA et la suppression d'une déclaration de template inutilisée.
Le projet llama.cpp a publié la version b9847, qui inclut une correction pour Gemma E4B MTP FlashAttention sur CUDA et la suppression d'une déclaration de template inutilisée.
Le projet llama.cpp a publié la version b9846, qui inclut une optimisation du backend Vulkan pour Asahi Linux. Cette mise à jour annule la boucle de taille de bloc dans la multiplication matricielle afin d'améliorer la compatibilité et les performances sur le matériel Apple Silicon sous Linux.
Le projet llama.cpp a publié la version b9844, qui introduit le support ggml-webgpu pour le format de quantification NVFP4. Cette mise à jour fournit également des binaires préconstruits pour macOS, iOS, Linux, Android, Windows et openEuler sur divers backends matériels.
Google UK a publié son dernier rapport sur l'impact économique détaillant les stratégies pour aider davantage de personnes à débloquer les avantages des technologies alimentées par l'IA dans le pays.
Le projet llama.cpp a publié la version b9843, fournissant des binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur diverses architectures matérielles.
La version 1.2.7 de LangGraph a été publiée, apportant des corrections de bugs et des mises à jour de dépendances pour l'écosystème LangChain.
Microsoft Research présente Memora, un framework de mémoire agentique évolutif conçu pour équilibrer abstraction et spécificité pour les tâches d'IA à long terme. Le système découple le contenu riche de la mémoire des structures de récupération légères, établissant de nouveaux résultats state-of-the-art sur les benchmarks tout en utilisant jusqu'à 98 % moins de tokens de contexte.
La version 2.1.196 de Claude Code introduit les modèles par défaut de l'organisation, les pièces jointes de fichiers cliquables et une sécurité améliorée pour les approbations des serveurs MCP. La mise à jour améliore également la fiabilité des sessions en arrière-plan, corrige divers problèmes de rapport d'état des agents et optimise l'utilisation des jetons dans les flux de travail de revue de code.
Un expert de Google explique le concept d'une approche full-stack pour l'intelligence artificielle. L'article souligne que cette méthodologie globale a servi de fondement aux travaux d'IA de Google pendant une longue période.
La version b9842 de llama.cpp introduit un changement pour dédupliquer les presets et les entrées de modèle en cache dans le point de terminaison /v1/models. Cette mise à jour est validée par Adrien Gallouët de Hugging Face.
Les chercheurs ont publié Brain2Qwerty v2, un pipeline d'IA non invasif qui décode des phrases en temps réel à partir d'enregistrements de magnétoencéphalographie (MEG) sans implants chirurgicaux. Le système atteint une précision lexicale globale de 61 % et jusqu'à 78 % pour les meilleurs participants, surpassant significativement les méthodes non invasives précédentes.
La version b9840 de llama.cpp introduit le support de conversion pour le modèle DeepSeek V4, incluant un traitement spécifique pour la variante Pro. Cette mise à jour intègre la nouvelle architecture dans la bibliothèque avec diverses optimisations internes et corrections de bugs.
OpenAI Economic Research a étendu son cadre de transition des emplois liés à l'IA à l'Union européenne, en utilisant la taxonomie ESCO et les données d'Eurostat pour analyser comment les capacités de l'IA pourraient remodeler les marchés du travail dans les États membres.
Le projet llama.cpp a publié la version b9839, qui inclut une correction pour restaurer le balayage Tailwind dans les worktrees ignorés. Cette mise à jour fournit des binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur diverses architectures et backends d'accélération matérielle.
Le projet llama.cpp a publié la version b9838, fournissant des binaires préconstruits pour un large éventail de systèmes d'exploitation et d'accélérateurs matériels. Cette version inclut le support du CPU, du GPU (CUDA, Vulkan, ROCm, OpenCL) et des accélérateurs IA spécialisés sur macOS, Linux, Windows, Android et openEuler.
HP Inc. intensifie son partenariat stratégique avec OpenAI à la suite de pilotes réussis, déployant l'IA dans les expériences client, la productivité des employés et le développement logiciel. L'entreprise utilise la plateforme OpenAI Frontier comme modèle d'exploitation unifié pour gouverner le contexte, les autorisations et l'évaluation alors qu'elle passe de cas d'utilisation expérimentaux à une production à l'échelle de l'entreprise.
Le projet llama.cpp a publié la version b9837, qui introduit un nouveau drapeau `--reasoning-preserve` pour le modèle de chat Jinja afin de conserver les jetons de raisonnement. Cette mise à jour inclut également des messages d'aide corrigés et fournit des binaires préconstruits pour macOS, Linux, Windows, Android et openEuler sur divers backends matériels.
Le projet llama.cpp a publié la version b9835, qui inclut une correction pour les fonctionnalités d'arrêt et de saut de raisonnement en mode mono-modèle. Cette mise à jour résout des problèmes spécifiques au sein de l'interface utilisateur afin d'améliorer le contrôle pendant l'inférence du modèle.
Le projet llama.cpp a publié la version b9833, introduisant un analyseur dédié pour le modèle MiniCPM5 ainsi que diverses corrections de bugs et refactorisations. Cette mise à jour inclut la prise en charge de l'analyse des appels d'outils, la simplification de la grammaire et la correction du comportement de l'API Jinja pour assurer la compatibilité avec les normes Jinja2.
Le projet llama.cpp a publié la version b9832, introduisant une nouvelle option en ligne de commande `--dump-prog` pour le moteur de templates Jinja afin d'aider au débogage. Cette mise à jour inclut également des binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur diverses architectures CPU et GPU.