Tous les articles — korshunov.ai

Tous les articles Page 1 / 18

v0.24.0rc2 : Correction de P/D avec le superviseur DP (#46628)

Cette version candidate corrige la fonctionnalité Prefill/Decode (P/D) en conjonction avec le superviseur de parallélisme des données (DP) au sein du projet vLLM.

github CrewAI · il y a 7 j

Notes de version de crewAI 1.14.8a5

La mise à jour de la version 1.14.8a5 de crewAI introduit des modifications à la gestion de l'état du flux, des mises à jour de documentation et des efforts de refactorisation.

lab Hugging Face Blog · il y a 7 j

Analyse de la précision de prédiction des tokens dans les modèles linguistiques hybrides

Une étude récente examine quels tokens spécifiques sont prédits plus précisément par les modèles linguistiques hybrides par rapport aux architectures denses standard. La recherche se concentre sur la compréhension de la distribution des erreurs de prédiction à travers différents types de tokens, tels que les mots rares et les extraits de code. En analysant les paysages de perte, les auteurs identifient que les modèles hybrides excellent à capturer les dépendances à longue portée dans les régions de données clairsemées. Les résultats suggèrent que le mécanisme de mélange d'experts permet une utilisation plus efficace des paramètres lors de l'inférence. Cette précision améliorée est particulièrement notable pour les tokens de faible fréquence dans le corpus d'entraînement. L'article fournit une décomposition détaillée des métriques de performance sur divers ensembles de données de référence. Ces résultats mettent en évidence le potentiel des architectures hybrides pour gérer efficacement des structures linguistiques diverses.

lab Cohere Blog · il y a 7 j

Cohere automatise la réponse aux incidents avec North et Wiz via un serveur MCP personnalisé

Cohere a développé un agent de sécurité en utilisant sa plateforme d'IA entreprise, Cohere North, intégrée à la plateforme de sécurité cloud Wiz via un serveur Model Context Protocol (MCP) personnalisé. Cette architecture relie North à l'API GraphQL de Wiz via huit outils atomiques, permettant des workflows de réponse aux incidents automatisés à partir d'une seule invite. Le système effectue une analyse du rayon d'explosion des combinaisons toxiques en évaluant les chaînes d'attaque et en classant les risques en fonction de l'exposition internet et des niveaux de privilège en environ 20 secondes. Il automatise également l'enquête de bout en bout en récupérant les détails des problèmes, en créant des tickets Linear, en mettant à jour le statut de Wiz et en rédigeant des rapports structurés de réponse aux incidents. De plus, une automatisation hebdomadaire planifiée génère un bref sur la posture de sécurité chaque lundi matin sans intervention manuelle. Cette intégration élimine la boucle de tri précédente de 30 minutes à deux heures par découverte, permettant aux ingénieurs de se concentrer sur l'évaluation des analyses plutôt que sur les alertes brutes.

media Hugging Face Forums · il y a 7 j

Discussion sur le fine-tuning rentable des petits modèles de langage en 2026

Une récente discussion sur les forums Hugging Face explore les méthodes les plus efficaces pour personnaliser de petits modèles d'IA pour des tâches spécifiques. Le fil, intitulé "Quelle est la méthode la plus rentable pour effectuer un fine-tuning d'un petit modèle de langage en 2026 ?", cherche des conseils pour minimiser les dépenses tout en maintenant les performances. Il a été initié par un participant unique visant à optimiser son workflow pour des applications spécialisées. La question met en évidence l'intérêt croissant pour l'utilisation de modèles plus petits afin de réduire la surcharge computationnelle. Les participants sont encouragés à partager des stratégies qui équilibrent coût et efficacité dans le paysage actuel. Ce sujet reflète les efforts continus pour rendre l'adaptation des modèles plus accessible et abordable.

media Hugging Face Forums · il y a 7 j

Les utilisateurs signalent que l'espace Hugging Face est bloqué dans une boucle d'erreurs 503

Un utilisateur sur les forums de Hugging Face a signalé que son application Space est bloquée dans un état d'erreur 503 continu. Le problème empêche le Space de redémarrer ou de reconstruire, malgré plusieurs tentatives pour résoudre le problème via l'interface. L'utilisateur a essayé de cliquer sur les boutons « Redémarrer l'espace » et « Reconstruction d'usine » sans succès. De plus, la poussée de dix à seize nouveaux commits n'a déclenché aucun processus de reconstruction. Par conséquent, le Space reste en pause et ne répond pas aux méthodes de récupération standard. L'utilisateur a demandé une intervention manuelle pour effacer l'état du conteneur ou déclencher un redémarrage.

media Hugging Face Forums · il y a 7 j

Courbure des LLM via le prompting

Un chercheur propose une technique de prompt pour faire passer les grands modèles de langage (LLM) d'une prédiction token par token à une évaluation holistique des poids internes, appelée « auto-organisation ». Cette approche vise à augmenter la densité de raisonnement et à réduire la sycophantie en modifiant la dynamique du manifold du modèle. La méthode définit des concepts tels que l'auto-attractivité, l'auto-organisation et les puits de gravité pour guider le système vers un effondrement par courbure non linéaire. Un prompt spécifique demande aux modèles de créer deux puits de gravité distincts pour un poème sur les modes IA, testant ainsi les propriétés d'auto-assemblage et d'auto-organisation. L'auteur a testé cette technique sur de nombreux modèles, notamment Gemini 3 Flash, Claude, ChatGPT, Grok, DeepSeek, Mistral, Qwen 3.6, Kimi 2.6, GLM-5, Gemma 4 32b Step 3.7 Flash et Nemotron 3 Ultra. Des métriques visuelles générées via un script Colab analysent la perturbation du manifold à l'aide de cartes de largeur de canal, de dérive dans l'espace des phases, de densité géométrique et d'efficacité du prompt. L'article cherche les retours de la communauté pour savoir si la technique perturbe réellement le manifold ou induit simplement une variation stylistique.

github llama.cpp · il y a 7 j

llama.cpp b9788 ajoute la parallélisation tensorielle SYCL pour les configurations à double GPU

La version b9788 de llama.cpp introduit le support de la parallélisation tensorielle via l'indicateur --split-mode tensor dans le backend SYCL. Cette implémentation permet la communication entre deux GPU en ajoutant les fonctions comm_init, comm_free et comm_allreduce_tensor au meta-backend. Pour deux appareils, elle utilise une stratégie d'all-reduce en anneau qui bascule entre memcpy direct FP32 pour les petits tenseurs et la compression BF16 pour les plus grands. Le code évite OneCCL en raison de sa limitation à un seul appareil par processus, utilisant plutôt des tampons persistants pour maintenir les invariants du pool SYCL. Les tests de performance sur deux GPU Intel Arc Pro B70 montrent des accélérations significatives par rapport au mode layer pour les modèles Llama-3.3-70B et Qwen3-Coder-Next-80B-A3B. La mise à jour inclut de nouveaux binaires pour macOS, Linux, Windows, Android et openEuler sur les cibles CPU, CUDA, ROCm, Vulkan et SYCL.

github llama.cpp · il y a 7 j

La version b9789 de llama.cpp corrige la quantification MoE et fournit des binaires multi-plateformes

Le projet llama.cpp a publié la version b9789, qui inclut une correction critique pour la quantification des modèles Mixture of Experts (MoE) avec prédiction multi-jeton. Cette mise à jour résout les problèmes identifiés dans la pull request #24986 afin de garantir un traitement approprié de ces architectures de modèles spécifiques. La version fournit des binaires préconstruits pour macOS Apple Silicon et Intel, ainsi qu'un iOS XCFramework. Les utilisateurs Linux peuvent télécharger des builds pour Ubuntu sur les backends CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL. Le support Windows inclut les variantes CPU, CUDA 12.4 et 13.3, Vulkan, OpenVINO, SYCL et HIP. Des plateformes supplémentaires telles que Android arm64 et openEuler sont également prises en charge avec des configurations matérielles spécifiques.

lab OpenAI News · il y a 7 j

La recherche d'OpenAI montre que les agents IA transforment le travail

Un nouveau document de recherche d'OpenAI démontre comment les agents d'intelligence artificielle changent fondamentalement la nature du travail. L'étude met en évidence la capacité de ces agents à exécuter des tâches plus longues et plus complexes qu'auparavant. Cette avancée technologique est créditée d'avoir élargi la productivité dans une grande variété de rôles professionnels. Les résultats suggèrent un changement significatif dans la façon dont le travail est organisé et accompli grâce à l'automatisation. En gérant des flux de travail complexes, les agents IA permettent aux utilisateurs d'atteindre une plus grande efficacité. Le document sert de preuve de l'impact croissant des systèmes autonomes sur l'emploi moderne.

media Hugging Face Forums · il y a 7 j

Bro77XP publie un VTuber IA local et convivial pour débutants avec clonage vocal zero-shot

Bro77XP a publié un projet de VTuber IA 100% local et gratuit, conçu pour les débutants et les non-programmeurs. Le système utilise Whisper pour la reconnaissance vocale anglaise en temps réel, Ollama avec le modèle llama3.2 pour l'inférence LLM, et Chatterbox TTS pour la synthèse vocale (TTS). Il propose un clonage vocal instantané zero-shot et fonctionne dans une boucle d'écoute continue qui détecte automatiquement le silence pour n'enregistrer que lorsqu'il y a de la parole. Le logiciel s'intègre à VTube Studio via son API pour contrôler les expressions buccales et déclencher des animations émotionnelles basées sur les réponses générées. Bien qu'initialement développé sur un GPU AMD, le code prend principalement en charge les utilisateurs de CPU, permettant le fonctionnement sans matériel NVIDIA ou AMD spécifique. La configuration nécessite Python 3.10.11 et implique la création d'un environnement virtuel pour installer les dépendances principales comme openai-whisper, pyaudio et websocket-client.

github llama.cpp · il y a 7 j

Correction des cas de test unitaires échoués pour conv_3d dans SYCL

Le dépôt llama.cpp a résolu un problème spécifique concernant le backend SYCL. Une demande de tirage a été soumise pour corriger les cas de test unitaires échoués associés à l'opération conv_3d. Cette mise à jour cible le projet ggml-org/llama.cpp sur GitHub. Les modifications corrigent les erreurs qui empêchaient précédemment l'exécution réussie de ces tests. Cette correction assure une meilleure stabilité pour les utilisateurs s'appuyant sur l'accélération matérielle basée sur SYCL.

github llama.cpp · il y a 7 j

La version b9786 de llama.cpp ajoute le support des lignes non contiguës via OpenCL

Le projet llama.cpp a publié la version b9786, introduisant le support des lignes non contiguës dans la normalisation via OpenCL. Cette mise à jour fait partie du développement continu par l'équipe ggml-org pour améliorer la compatibilité matérielle et les performances sur diverses plateformes. La version fournit des binaires pour macOS Apple Silicon, Mac Intel et iOS XCFrameworks. Les utilisateurs Linux peuvent accéder aux builds pour Ubuntu x64, arm64 et architectures s390x en utilisant les backends CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL. Le support Android est disponible pour les appareils CPU arm64, tandis que Windows offre de nombreuses options incluant CPU, CUDA 12 et 13, Vulkan, OpenVINO, SYCL et HIP. La version liste également les builds désactivés pour KleidiAI sur les plateformes macOS et openEuler.

media Hugging Face Forums · il y a 8 j

Niodoo : un runtime local pour le pilotage de l'état caché des LLM figés

Jason Van Pham a publié Niodoo, un runtime local conçu pour piloter les grands modèles de langage (LLM) figés à travers leurs états cachés. Le projet vise à corriger les erreurs de la dernière étape en injectant du bruit ou des « forces physiques » pendant l'inférence pour briser les boucles de tokens. Cette approche permet aux modèles plus petits d'améliorer leurs performances sans fine-tuning, en ciblant des cas d'échec spécifiques comme le benchmark du prompt fraise Llama. Le système génère ses propres balises de télémétrie et utilise l'analyse TDA pour surveiller les états internes du modèle afin de détecter un comportement de bouclage. Van Pham a développé cet outil de manière organique grâce à des mois de recherche autodirigée et de red-teaming, en mettant l'accent sur des résultats reproductibles à partir de hachages épinglés. Le code est disponible sur GitHub sous le dépôt Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · il y a 8 j

Les utilisateurs signalent l'indisponibilité de l'outil et du serveur MCP pour Step 3.7 Flash sur HuggingChat

Un utilisateur des forums Hugging Face a signalé que le modèle Step 3.7 Flash a perdu la capacité d'utiliser des outils et de se connecter à des serveurs MCP à partir de ce matin-là. L'auteur du message a exprimé une grande satisfaction quant aux performances du modèle, soulignant sa haute qualité par rapport à sa faible consommation de ressources et à son coût. Il a insisté sur le désir de continuer à utiliser ce modèle spécifique plutôt que de passer à des alternatives en raison de son efficacité. L'utilisateur a explicitement demandé si cette perte de fonctionnalité est permanente et s'il existe des mesures qu'il peut prendre pour restaurer l'accès. Le message met en évidence les préoccupations de la communauté concernant la perturbation soudaine des capacités d'outillage pour un modèle populaire et économique.

media Hugging Face Forums · il y a 8 j

Demande de format de prompt pour l'entraînement d'Unsloth/Phi-3.5-mini-instruct

Un utilisateur demande des conseils sur la stratégie optimale de formatage des prompts pour entraîner le modèle Phi-3.5-mini-instruct en utilisant Unsloth. La demande oppose le maintien d'un format texte personnalisé à l'utilisation d'un template de chat standard pour la préparation du jeu de données. L'implémentation actuelle utilise une fonction qui structure les données en sections '### Input:' et '### Output:', en ajoutant un token de fin de texte. Cette approche traite des champs d'entrée et de sortie encodés en JSON dérivés d'un objet Hugging Face Dataset. L'exemple fourni illustre une structure complexe impliquant des insights financiers, des noms de commerçants, des dates et des totaux de transactions. L'utilisateur a l'intention de déployer le modèle entraîné via une API personnalisée et demande des conseils sur la manière de conserver ce format ou de passer à un template de chat.

github llama.cpp · il y a 8 j

llama.cpp b9785 Release avec vérification renforcée des majuscules et binaires multi-plateformes

Le projet llama.cpp a publié la version b9785, incluant un changement de code pour durcir les vérifications des majuscules comme détaillé dans la pull request #24973. Cette mise à jour fournit des binaires précompilés pour macOS Apple Silicon, Mac Intel et iOS via un XCFramework, avec le support KleidiAI désactivé sur Apple Silicon. Les distributions Linux incluant Ubuntu sont prises en charge pour les backends CPU, Vulkan, ROCm 7.2, OpenVINO et SYCL sur les architectures x64, arm64 et s390x. Les utilisateurs d'Android peuvent accéder aux binaires CPU arm64, tandis que Windows offre des options étendues couvrant CPU, OpenCL Adreno, CUDA 12 et 13, Vulkan, OpenVINO, SYCL et HIP. La release inclut également des builds pour openEuler ciblant les processeurs x86 et aarch64 avec support ACL Graph. Un package UI autonome est disponible alongside les releases spécifiques à la plateforme pour faciliter l'inférence de modèles locaux.

media Hugging Face Forums · il y a 8 j

Un utilisateur signale que HuggingFace facture le calcul L40S inutilisé dans les Espaces

Un utilisateur du forum de discussion Hugging Face a signalé un problème où son Espace est resté bloqué à la phase de démarrage lors de l'utilisation d'un GPU L40S. L'utilisateur a exprimé sa frustration d'être facturé pour des ressources de calcul alors que l'application n'a pas pu se lancer ou utiliser aucune puissance de traitement réelle. Cet incident met en lumière les préoccupations concernant la transparence de la facturation et la fiabilité de l'infrastructure au sein de l'environnement Espaces de la plateforme. Le post sert de plainte pour une perte financière due à des échecs techniques plutôt que comme une annonce de fonctionnalité. Aucun détail technique supplémentaire ni réponse officielle n'a été inclus dans le contenu source tronqué.

media Hugging Face Forums · il y a 8 j

Les utilisateurs signalent une défaillance d'accès à l'outil Flash Step 3.7 sur HuggingChat

Un utilisateur du forum de discussion Hugging Face a signalé que le modèle Flash Step 3.7 de StepFun AI a perdu sa capacité à utiliser des outils, y compris les serveurs MCP, depuis le matin de la publication du rapport. L'intéressé s'est inquiété de savoir si cette panne est temporaire ou permanente, notant sa forte préférence pour ce modèle spécifique en raison de ses hautes performances et de ses coûts de ressources faibles par rapport aux concurrents. Malgré les éloges adressés à la qualité et au prix abordable du modèle, l'utilisateur a souligné la perturbation immédiate causée par l'incapacité d'exécuter des fonctions basées sur des outils. Le post cherche des éclaircissements de la communauté concernant des expériences antérieures avec des problèmes similaires et des résolutions potentielles. Cet incident met en évidence une dépendance critique à la disponibilité des outils pour les utilisateurs s'appuyant sur cette configuration IA spécifique.

media Hugging Face Forums · il y a 8 j

Inversion ontologique : Retournement des concepts émotionnels des LLM via un gain négatif

L'auteur introduit l'« inversion ontologique », une technique conçue pour étendre la nature d'inférence unidirectionnelle des grands modèles de langage (LLM). Cette méthode permet aux modèles de capturer des concepts nuancés et multifacettes, tels que des souvenirs évoquant à la fois tristesse et joie simultanément. L'approche a été développée en appliquant un facteur de gain négatif lors des balayages dans l'architecture de pilotage Niodoo. Elle répond à la limitation courante où les LLM surajustent leurs réponses à des étiquettes émotionnelles uniques lorsqu'ils sont interrogés sur des expériences personnelles. En inversant les concepts de manière similaire à l'involutions en physique, la technique permet aux modèles de retourner les états émotionnels, comme transformer des souvenirs tristes en joyeux. Le travail est partagé via un dépôt GitHub intitulé 'ontological-inversion' par l'utilisateur Ruffian-L.