Tous les articles — korshunov.ai

Tous les articles Page 1 / 18

Un utilisateur s'enquiert du processus de renommage d'organisation sur Hugging Face

Un utilisateur a publié sur le forum de discussion de Hugging Face pour demander de l'aide concernant le renommage de son organisation. L'intéressé a indiqué avoir envoyé un email à website@huggingface.co le 15 juin, demandant un changement de DZER-Studios vers Vexion-LM. Malgré l'envoi de cette demande initiale, l'utilisateur signale n'avoir reçu aucune réponse et observe que le nom de l'organisation est resté inchangé. Par conséquent, l'auteur du message demande si les renommages d'organisation sont toujours pris en charge par la plateforme. Il demande également des conseils sur les méthodes alternatives pour contacter l'équipe concernant cette demande administrative spécifique.

media Hugging Face Forums · il y a 8 j

Enquête communautaire sur les méthodes de benchmarking des modèles

Un utilisateur du forum de discussion Hugging Face a posé une question demandant des conseils sur la manière de benchmarking des modèles d'apprentissage automatique. La demande a été initiée par un individu nouveau dans le domaine du fine-tuning et souhaite évaluer ses modèles après leur achèvement. Le message demande explicitement des méthodes ou stratégies établies que la communauté utilise à cette fin. Il met en évidence un besoin commun parmi les praticiens de comprendre les pratiques d'évaluation standard dans le développement de modèles. Le fil de discussion contient actuellement un seul post d'un seul participant. Aucun benchmark spécifique, métrique ou solution technique n'a été fourni dans le contenu visible de la source.

media Hugging Face Forums · il y a 8 j

Qwen3/Gemma3 Candle ignore les masques d'attention pour les lots de longueur égale en mode CPU

Un utilisateur a signalé un bug critique dans la bibliothèque text-embeddings-inference de Hugging Face affectant les modèles Qwen3 et Gemma3. Le problème se produit lors de l'inférence sur des CPUs avec des requêtes concurrentes, entraînant une dégradation significative de la précision. Plus précisément, le backend Candle ignore incorrectement les masques d'attention pour les lots où toutes les séquences d'entrée ont des longueurs égales. Ce défaut compromet la fiabilité des embeddings générés dans ces conditions spécifiques. Pour résoudre le problème, l'auteur a soumis une pull request contenant une correction qui a été rigoureusement testée sur ses machines locales. Le bug met en évidence des risques potentiels de stabilité pour les services d'embedding basés sur CPU gérant des entrées par lots.

github CrewAI · il y a 8 j

Notes de version v1.14.8a4

v1.14.8a4 ajoute le support du flux conversationnel dans la CLI TUI. Il comprend des correctifs pour la traversée de chemin par lien symbolique lors de l'extraction et de la validation des archives de compétences, ainsi que la validation des chemins de définition de flux déclaratifs. La documentation pour v1.14.8a3 est mise à jour.

github llama.cpp · il y a 8 j

LLaMA.cpp Release b9784 : Optimisations MM Hexagon et binaires multiplateformes

LLaMA.cpp publie la version b9784 avec des optimisations majeures pour les opérations MM basées sur Hexagon, incluant le repack de poids en tuiles 32x32, une meilleure gestion du dyn.quant et une gestion unifiée des paramètres de kernel. La release inclut de nouveaux binaires pour macOS (arm64 et x64), iOS, et plusieurs architectures Linux avec prise en charge de Vulkan, ROCm et OpenVINO.

github llama.cpp · il y a 8 j

llama.cpp publie b9782 avec de nouveaux binaires et un support

llama.cpp publie la version b9782, incluant des binaires pour macOS, Linux, Android, Windows et openEuler. La mise à jour ajoute le support de Vulkan, OpenVINO, SYCL, ROCm et CUDA sur plusieurs architectures, avec une interface utilisateur mise à jour et des fonctionnalités désactivées telles que KleidiAI et le support openEuler.

lab Google DeepMind Blog · il y a 8 j

Gemini 3.5 Flash ajoute la capacité d'utilisation de l'ordinateur

Google a introduit l'utilisation de l'ordinateur dans Gemini 3.5 Flash, permettant au modèle d'exécuter du code et d'interagir avec des outils externes. Cette fonctionnalité permet aux utilisateurs d'exécuter des tâches de programmation et d'accéder à des informations en temps réel grâce à des fonctions informatiques intégrées.

lab Hugging Face Blog · il y a 8 j

Présentation du Classement FFASR : Évaluer la reconnaissance vocale dans le monde réel

Le Classement FFASR a été lancé pour évaluer les systèmes de reconnaissance vocale dans des conditions réelles. Il fournit une référence pour évaluer les performances des modèles de reconnaissance automatique de la parole dans divers environnements et cas d'utilisation.

lab Hugging Face Blog · il y a 8 j

NeMo AutoModel de NVIDIA accélère le fine-tuning des transformeurs

Le NeMo AutoModel de NVIDIA permet un fine-tuning plus rapide des modèles de type transformeur en automatisant la sélection et l'optimisation du modèle. Il réduit le temps de développement et améliore l'efficacité lors de l'entraînement de grands modèles de langage sur le matériel NVIDIA.

lab Claude Code Releases · il y a 8 j

v2.1.190 : Corrections de bugs et améliorations de fiabilité

La version 2.1.190 inclut des corrections de bugs et des améliorations de fiabilité. Aucune nouvelle fonctionnalité n'est annoncée dans cette mise à jour.

github llama.cpp · il y a 8 j

llama.cpp publie b9781 avec prise en charge de Vulkan et multi-plateforme

llama.cpp publie la version b9781, ajoutant le support de Vulkan pour Linux et Windows, et s'étendant à plusieurs architectures dont ARM64 et x64 sur macOS, Linux, Android et Windows. La release inclut des builds CPU, CUDA, OpenVINO, SYCL et ROCm, avec un composant UI disponible.

lab Mistral AI News · il y a 8 j

Nouveaux contrôles de connecteur pour la sécurité et l'accès des entreprises

Mistral Studio propose désormais des contrôles d'administration enrichis pour gérer l'accès aux connecteurs par espace de travail et par outil, permettant des permissions fines. Les fonctionnalités incluent des clés API avec des étendues, des connecteurs multi-comptes et un nouveau débogueur de connecteurs pour l'analyse des causes racines, le tout soutenant une intégration sécurisée et auditable avec les systèmes d'entreprise.

lab Microsoft Research Blog · il y a 8 j

Talos : Réanalyse génomique automatisée pour le diagnostic des maladies rares

Talos est un outil open-source qui automatise la réanalyse itérative des données génomiques afin d'identifier les diagnostics de maladies rares. Il a atteint un taux de récupération de 90 % des diagnostics dans le périmètre avec seulement 1,3 variants candidats par patient, et a fourni 241 nouveaux diagnostics parmi 5 000 patients non diagnostiqués, la plupart des nouvelles découvertes apparaissant dans les 32 jours suivant la publication des preuves.

media Hugging Face Forums · il y a 8 j

Prototype de l'agent mobile Aiden en cours de développement

Aiden est un dispositif d'agent IA physique qui surveille l'écran d'un téléphone via HDMI et le contrôle par USB HID, permettant l'automatisation des applications sans jailbreak ni logiciel installé. Il prend en charge les LLM personnels (bring-your-own LLMs), fonctionne sans infrastructure backend ni collecte de données, et est publié sous licence AGPL en tant que carte de développement open-source.

lab OpenAI News · il y a 8 j

OpenAI et Broadcom dévoilent une puce d'inférence optimisée pour les LLM

OpenAI et Broadcom ont présenté Jalapeño, une puce IA personnalisée conçue pour l'inférence des grands modèles de langage. La puce vise à améliorer les performances, l'efficacité et la scalabilité des systèmes d'IA.

github llama.cpp · il y a 8 j

vulkan-shaders-gen échoue désormais à la compilation en cas d'erreurs de compilation de shaders

L'outil vulkan-shaders-gen détecte désormais et échoue à la compilation lorsque la compilation des shaders échoue, empêchant la création d'une libggml-vulkan défectueuse. Cette correction résout un problème antérieur où le succès de la compilation masquait des échecs au moment de l'exécution, et inclut des améliorations de la gestion des erreurs et des indicateurs atomiques sur toutes les plateformes.

github llama.cpp · il y a 8 j

LLaMA.cpp Release b9777 Ajoute de Nouveaux Modèles et Binaires Multiplateformes

La version b9777 de LLaMA.cpp ajoute les modèles LFM2.5-ColBERT-350M et LFM2.5-Embedding-350M. La release inclut des binaires précompilés pour macOS, Linux, Android, Windows et openEuler, prenant en charge diverses architectures et technologies d'accélération telles que CUDA, Vulkan, OpenVINO et SYCL.

github vLLM · il y a 8 j

v0.24.0rc1 : Correction de la construction de l'histogramme topk sur SM75

vllm publie la version v0.24.0rc1, incluant une correction pour les problèmes de construction de l'histogramme topk sur SM75. Le changement a été cherry-pické depuis le commit 191826e et signé par Mohammad Miadh Angkad.

media Hugging Face Forums · il y a 8 j

J'ai construit un serveur MCP en Go pour les agents IA - Tutoriel de 200 lignes

Un tutoriel Go de 200 lignes démontre la construction d'un serveur léger du protocole Model Context Protocol en utilisant la concurrence et la simplicité de Go. Le serveur permet aux agents IA comme Claude d'accéder à des données structurées et aux applications Go, potentiellement les rendant 10x plus utiles.

media Hugging Face Forums · il y a 8 j

Meilleur modèle pour usage local et fonctionnement avec Unity via MCP à 12 Go de VRAM

Un utilisateur cherche un LLM léger adapté à Unity 6.5 avec MCP, fonctionnant dans une limite de 12 Go de VRAM. Il s'appuie actuellement sur les versions gratuites de Cursor et Claude mais les trouve insuffisantes, demandant s'il existe des modèles spécialisés ou des solutions alternatives.