Tous les articles — korshunov.ai

Tous les articles Page 1 / 20

Le Bonsai-8B 1-bit de PrismML bat IBM Granite sur l'appel d'outils CPU avec grammaire

Un benchmark du modèle Bonsai-8B 1-bit de PrismML contre le Granite d'IBM et d'autres LLMs révèle que Bonsai-8B atteint la plus haute précision d'appel d'outils lors de l'utilisation du décodage contraint par grammaire. Ce test, réalisé sur CPU avec llama.cpp, met en évidence le rôle critique des contraintes de sortie pour permettre aux petits modèles quantifiés de fonctionner efficacement pour les tâches d'agent.

media r/LocalLLaMA · il y a 8 h

Lemonade SDK publie RPG-HaloTales-V1 pour le jeu de rôle multimédia local

Le Lemonade SDK a publié un nouveau modèle nommé RPG-HaloTales-V1, conçu pour offrir une expérience de jeu de rôle multimédia que les utilisateurs peuvent exécuter localement.

media r/LocalLLaMA · il y a 8 h

Backend LLM local open-source pour les conversations entre PNJ

L'auteur a publié un backend de synthèse vocale entièrement local conçu pour les PNJ basés sur des grands modèles de langage (LLM), permettant des interactions directes entre PNJ sans dépendance au cloud. Le système intègre la reconnaissance vocale, un LLM local et la synthèse vocale pour permettre aux PNJ de converser, de conserver le contexte et d'influencer les interactions futures avec le joueur.

media r/LocalLLaMA · il y a 10 h

Meilleur modèle de codage pour une configuration 3x Spark ?

Un utilisateur cherche des recommandations pour le meilleur modèle de codage à exécuter sur une configuration matérielle dédiée composée de trois unités Asus Ascent GX10 (GB10), avec une attente de 5 à 10 utilisateurs en simultané.

media r/LocalLLaMA · il y a 10 h

Andi de Hugging Face démontre un pipeline vocal entièrement open-source utilisant Gemma 4 31B

Andi de Hugging Face a publié une démo entièrement open-source et gratuite qui crée un pipeline d'interaction vocale. Le système intègre parakeet de Nvidia, le modèle Gemma 4 31B servi par Cerebras, et une inférence personnalisée pour Qwen3TTS.

media r/LocalLLaMA · il y a 10 h

Z.ai lance ZCode pour défier Cursor, Claude Code et GitHub Copilot dans le codage IA

Z.ai a introduit ZCode, un nouvel outil de codage IA conçu pour concurrencer des plateformes établies comme Cursor, Claude Code et GitHub Copilot.

media r/LocalLLaMA · il y a 10 h

Mise à jour SimpleLLMChat 1.2.5 pour l'IA agentique sur Windows XP

Le développeur a publié la version 1.2.5 de SimpleLLMChat, un harnais d'IA agentique conçu pour fonctionner sur des machines héritées utilisant Windows XP et .NET 4.0.

media r/LocalLLaMA · il y a 10 h

Qu'y a-t-il dans votre RAG ?

Un utilisateur de Reddit remet en question l'utilité pratique de la Génération Augmentée par Récupération (RAG) pour des projets personnels impliquant du codage, de l'administration système et de petites bases de code. L'auteur soutient que les connaissances industrielles standard sont déjà bien couvertes par les modèles, tandis que des sources de données spécifiques comme les bases de code ou les références d'API sont soit trop petites pour nécessiter un indexage, soit trop grandes pour être gérées efficacement.

media r/LocalLLaMA · il y a 10 h

Le PDG de Palantir s'indigne contre les modèles fermés

Le PDG de Palantir, Alex Karp, a publiquement critiqué Anthropic et OpenAI pour avoir supposément surfacturé ses clients et mal utilisé leurs données. Cette position intervient alors que Palantir a récemment conclu un accord pour acheter des puces Nvidia afin d'exécuter des modèles locaux pour ses clients d'entreprise.

media r/LocalLLaMA · il y a 10 h

Une astuce économique pour une sortie structurée fiable : renvoyer l'erreur de validation dans la tentative suivante

Pour améliorer la fiabilité lors de la génération de sorties structurées à partir de grands modèles de langage, une méthode est proposée qui renvoie les erreurs de validation et la sortie précédente du modèle dans le prompt lors des tentatives suivantes. Cette approche transforme le processus de régénération aléatoire des réponses en une correction automatique des erreurs spécifiques par édition de la tentative précédente.

media Hugging Face Forums · il y a 15 h

Écart entre les slots ZeroGPU signalés et les Spaces listés

Un utilisateur a rencontré une erreur de quota indiquant que 17 slots ZeroGPU étaient en utilisation contre une limite de 10, bien qu'il ne liste que 8 Spaces demandant le matériel zero-a10g.

media Hugging Face Forums · il y a 15 h

Un utilisateur rencontre une SecretsInjectionError lors du déploiement de SAM3 sur Azure

Un utilisateur signale avoir rencontré une SecretsInjectionError lors de la tentative de déploiement du modèle Meta SAM3 sur Microsoft Azure à l'aide de l'exemple Hugging Face Foundry. L'erreur se produit pendant la phase de configuration et d'installation lors de l'appel de l'API déployée.

media Hugging Face Forums · il y a 15 h

NanoI2V : Construire un modèle Image-to-Video à partir de zéro

NanoI2V est un projet open-source qui implémente un modèle de génération Image-to-Video à partir de zéro, visant à fournir une référence propre et éducative pour les techniques modernes de génération vidéo. Le dépôt privilégie la lisibilité et la reproductibilité par rapport à la complexité trouvée dans la plupart des projets de pointe.

media Hugging Face Forums · il y a 15 h

Comment publier ma recherche sur HuggingFace ?

Un utilisateur du forum Hugging Face cherche des conseils pour publier correctement son projet de recherche, TIS (Token Importance Scoring), ainsi que son code et sa documentation associés.

github Goose (Block) · il y a 15 h

Notes de version Goose v1.40.0

La mise à jour Goose v1.40.0 introduit un support étendu de la localisation pour l'application de bureau, ajoutant des locales pour le français, l'allemand, l'italien, le portugais, l'indonésien, le malais, le vietnamien, le chinois traditionnel, le coréen, le japonais, l'espagnol et l'hindi.

media Hugging Face Forums · il y a 18 h

Context Gravity

Chris Diaz a partagé un nouveau projet appelé Context Gravity, actuellement disponible sur GitHub. L'auteur recherche des retours de la communauté sur le dépôt.

media Hugging Face Forums · il y a 20 h

Show HF : ServBay, un runtime et une passerelle IA locaux-first pour les agents de codage

ServBay est présenté comme une solution de runtime et d'infrastructure locale-first conçue pour combler le fossé entre les agents de codage IA et la machine hôte de l'utilisateur. Il résout le problème du "dernier mile" où les agents intelligents manquent de capacités au niveau du système pour configurer des bases de données, des domaines ou des certificats SSL sans intervention manuelle du développeur.

media Hugging Face Forums · il y a 20 h

Prism Transformer : Programmes de têtes progressifs pour le traitement d'attention hiérarchique

Le Prism Transformer introduit un programme de têtes progressif qui varie le nombre de têtes d'attention entre les couches, en commençant par moins de têtes plus larges dans les premières couches et en augmentant monotoniquement avec la profondeur. Cette approche défie l'allocation uniforme standard en répondant aux besoins structurels distincts des premières et dernières couches sans ajouter de surcharge architecturale.

github CrewAI · il y a 20 h

Notes de version LangChain v1.15.2a2

Cette mise à jour inclut de nouvelles fonctionnalités pour l'intégration Bedrock, la documentation des agents de flux et la navigation en streaming, ainsi que des corrections de bugs et des améliorations de documentation.

media Hugging Face Forums · il y a 21 h

Rêves fractals + Planification inspirée par la mécanique quantique : Un outil de découverte de connaissances auto-organisé avec DeepSeek Coder

L'auteur présente un outil de découverte de connaissances auto-organisé qui intègre la génération de motifs fractals et la superposition inspirée de la mécanique quantique pour améliorer l'exploration des espaces de connaissances par DeepSeek Coder. Le système optimise les trajectoires de recherche en stockant les chemins créatifs réussis sous forme de requêtes mises en cache plutôt qu'en mémoire, adaptant l'utilisation des ressources en fonction des contraintes matérielles.