Tous les articles — korshunov.ai

Tous les articles Page 1 / 9

La version b9831 de llama.cpp ajoute le support DFlash et de nouveaux binaires

La version b9831 de llama.cpp introduit le support de DFlash v2, incluant l'attention à fenêtre glissante par type de couche, ainsi qu'un ensemble complet de binaires préconstruits pour plusieurs plateformes.

github llama.cpp · il y a 3 j

La version b9830 de llama.cpp ajoute le drapeau --offline et corrige un bug mémoire

La version b9830 de llama.cpp introduit la possibilité d'utiliser le drapeau --offline avec la commande llama download, permettant aux scripts de vérifier les modèles en cache sans accès réseau. Cette mise à jour résout également une vulnérabilité use-after-free latente dans le callback on_done de la tâche URL où first_path était incorrectement capturé par référence.

github llama.cpp · il y a 4 j

llama.cpp b9829 Release : journaux réduits et binaires multi-plateformes

Le projet llama.cpp a publié la version b9829, qui inclut une réduction de la sortie des journaux dans le serveur, les composants communs et les modules de décodage spéculatif. Cette mise à jour standardise également les conventions de nommage en remplaçant CMN_ par COM_.

github llama.cpp · il y a 4 j

llama.cpp b9828 release : améliorations de l'attention flash OpenCL et nouveaux binaires

La version b9828 de llama.cpp introduit des améliorations significatives d'OpenCL, en particulier une refonte des noyaux Flash Attention pour les précisions f16 et f32. Cette mise à jour inclut de nouveaux noyaux de prépassage de préfixe ainsi que la prise en charge des formats de quantification q4_0 et q8_0.

github llama.cpp · il y a 4 j

La version b9827 de llama.cpp ajoute une optimisation de copie asynchrone 2D CUDA

La version b9827 de llama.cpp introduit une optimisation de performance pour CUDA en ajoutant un chemin rapide cudaMemcpy2DAsync à la fonction ggml_cuda_cpy. Ce changement accélère les copies échelonnées de même type et même forme où les tenseurs ne sont pas entièrement contigus mais chaque ligne l'est, remplaçant des noyaux de copie scalaire élément par élément plus lents.

github llama.cpp · il y a 4 j

llama.cpp b9825 Release : Correction Vulkan et binaires multiplateformes

Le projet llama.cpp a publié la version b9825, qui inclut une correction pour l'opérateur d'étape Vulkan lors du traitement des entrées nulles. Cette mise à jour fournit des binaires précompilés pour macOS, Linux, Windows, Android et openEuler sur divers backends matériels.

github llama.cpp · il y a 4 j

llama.cpp b9826 avec correction de la norme SYCL

Le projet llama.cpp a publié la version b9826, qui inclut une correction pour des cas de tests unitaires échoués liés à la fonction norm dans SYCL. Cette mise à jour fournit des binaires précompilés et des frameworks sur plusieurs plateformes et accélérateurs matériels.

github llama.cpp · il y a 4 j

llama.cpp b9822 release avec binaires macOS, Linux, Windows

Le projet llama.cpp a publié la version b9822, fournissant des binaires préconstruits pour macOS, iOS, Linux, Android et Windows. Cette mise à jour inclut une correction pour l'option --no-common de test-chat-template et distribue les builds sur diverses architectures matérielles et accélérateurs.

github llama.cpp · il y a 4 j

La version b9823 de llama.cpp ajoute OpenVINO pour Windows et met à jour les binaires

Le projet llama.cpp a publié la version b9823, fournissant des binaires préconstruits pour les plateformes macOS, iOS, Linux, Android, Windows et openEuler. Un changement majeur dans cette version est l'ajout d'une compilation OpenVINO pour Windows au pipeline check-release.

github llama.cpp · il y a 4 j

llama.cpp b9824 release : renommage des binaires et nouveaux builds

Le projet llama.cpp a publié la version b9824, qui inclut des améliorations aux binaires rpc-server et export-graph-ops. L'outil `export-graph-ops` est renommé pour respecter les conventions de nommage des tests, tandis que `rpc-server` est renommé en `ggml-rpc-server` pour éviter les conflits dans les répertoires système.

github vLLM · il y a 5 j

v0.24.0

La version v0.24.0 inclut une mise à jour de l'intégration continue pour augmenter le délai de démarrage GSM8K des configurations MoE Refactor Qwen3 NVFP4.

lab OpenAI News · il y a 5 j

OpenAI présente en avant-première les modèles GPT-5.6 Sol, Terra et Luna

OpenAI a lancé un aperçu limité de la série GPT-5.6, introduisant trois nouveaux modèles : Sol comme modèle phare, Terra pour un équilibre dans le travail quotidien, et Luna pour des tâches rapides et abordables. L'entreprise prévoit de rendre ces modèles disponibles au grand public dans les prochaines semaines après cette phase initiale avec des partenaires de confiance.

github llama.cpp · il y a 5 j

llama.cpp b9821 Release : Indicateurs CLI et binaires multi-plateformes

Le projet llama.cpp a publié la version b9821, qui introduit des mises à jour de l'interface en ligne de commande permettant aux utilisateurs d'invoquer les indicateurs --version, --licenses et --help. Cette version fournit un ensemble complet de binaires préconstruits pour macOS, Linux, Android, Windows et openEuler sur divers accélérateurs matériels.

lab Claude Code Releases · il y a 5 j

Notes de version de Claude Code v2.1.195

La version 2.1.195 de Claude Code introduit plusieurs correctifs et améliorations, notamment de nouvelles variables d'environnement pour le contrôle de la souris en mode plein écran et des corrections à la logique du matcheur de hooks.

github llama.cpp · il y a 5 j

llama.cpp b9820 release : réduction des synchronisations CUDA et nouveaux binaires

La version b9820 de llama.cpp introduit des améliorations de performances en réintroduisant moins de synchronisations lors du calcul fractionné, ciblant spécifiquement les backends CUDA. Cette mise à jour fournit également des binaires précompilés pour macOS, Linux, Windows, Android et openEuler sur CPU, GPU et accélérateurs matériels spécialisés.

github llama.cpp · il y a 5 j

llama.cpp b9816 Release : synchronisation avec ggml et nouveaux binaires

Le projet llama.cpp a publié la version b9816, qui inclut une synchronisation avec la bibliothèque ggml. Cette mise à jour fournit des binaires préconstruits pour les plateformes macOS, iOS, Linux, Windows, Android et openEuler.

github llama.cpp · il y a 5 j

llama.cpp b9817 release : mise à jour d'OpenVINO 2026.2.1 et améliorations des opérateurs

La version b9817 de llama.cpp met à jour le backend OpenVINO vers la version 2026.2.1 et rend ses packages de release autonomes. Cette mise à jour inclut plusieurs améliorations d'opérateurs au sein du backend OpenVINO, telles que la suppression des ensembles compute_op_type codés en dur et l'activation de softmax avec entrée sink.

github llama.cpp · il y a 5 j

La version b9813 de llama.cpp ajoute le support Vulkan pour Intel Xe-LPG Plus

La version b9813 de llama.cpp introduit le support Vulkan pour le matériel Intel Xe-LPG Plus en ajoutant l'énumération d'architecture INTEL_XE1 et en activant coopmat1. Cette mise à jour traite les commentaires de code précédents, renomme l'identifiant d'architecture et inclut une vérification des pilotes Windows.

github llama.cpp · il y a 5 j

llama.cpp b9814 avec optimisation Vulkan pour mi50

Le projet llama.cpp a publié la version b9814, qui inclut une optimisation de l'opération `mul_mat_vecq` dans Vulkan ciblant spécifiquement le GPU AMD mi50. Cette mise à jour est accompagnée d'un ensemble complet de binaires précompilés pour plusieurs systèmes d'exploitation et architectures matérielles.

github MCP (GitHub org) · il y a 5 j

Notes de version MCP Python SDK v2.0.0a3

Le SDK Python du protocole Model Context Protocol (MCP) a publié sa troisième version alpha, v2.0.0a3, introduisant des changements significatifs au niveau du protocole et de l'architecture tout en maintenant la compatibilité ascendante pour les utilisateurs stables de la série 1.x.