Tous les articles
media Hugging Face Forums · il y a 11 h

Erreur du compteur de téléchargement pour les modèles sur Hugging Face

Un utilisateur du forum communautaire de Hugging Face a signalé que les statistiques de téléchargement de son dépôt de modèle, InternScience/Agents-A1-FP8, sont restées à zéro bien qu'il ait été téléchargé deux jours plus tôt. L'utilisateur note que le dépôt inclut un fichier config.json et soupçonne qu'un problème technique empêche le compteur de se mettre à jour.

media r/LocalLLaMA · il y a 11 h

Le Bonsai-8B 1-bit de PrismML bat IBM Granite sur l'appel d'outils CPU avec grammaire

Un benchmark du modèle Bonsai-8B 1-bit de PrismML contre le Granite d'IBM et d'autres LLMs révèle que Bonsai-8B atteint la plus haute précision d'appel d'outils lors de l'utilisation du décodage contraint par grammaire. Ce test, réalisé sur CPU avec llama.cpp, met en évidence le rôle critique des contraintes de sortie pour permettre aux petits modèles quantifiés de fonctionner efficacement pour les tâches d'agent.

media r/LocalLLaMA · il y a 11 h

Backend LLM local open-source pour les conversations entre PNJ

L'auteur a publié un backend de synthèse vocale entièrement local conçu pour les PNJ basés sur des grands modèles de langage (LLM), permettant des interactions directes entre PNJ sans dépendance au cloud. Le système intègre la reconnaissance vocale, un LLM local et la synthèse vocale pour permettre aux PNJ de converser, de conserver le contexte et d'influencer les interactions futures avec le joueur.

media r/LocalLLaMA · il y a 13 h

Qu'y a-t-il dans votre RAG ?

Un utilisateur de Reddit remet en question l'utilité pratique de la Génération Augmentée par Récupération (RAG) pour des projets personnels impliquant du codage, de l'administration système et de petites bases de code. L'auteur soutient que les connaissances industrielles standard sont déjà bien couvertes par les modèles, tandis que des sources de données spécifiques comme les bases de code ou les références d'API sont soit trop petites pour nécessiter un indexage, soit trop grandes pour être gérées efficacement.

media r/LocalLLaMA · il y a 13 h

Une astuce économique pour une sortie structurée fiable : renvoyer l'erreur de validation dans la tentative suivante

Pour améliorer la fiabilité lors de la génération de sorties structurées à partir de grands modèles de langage, une méthode est proposée qui renvoie les erreurs de validation et la sortie précédente du modèle dans le prompt lors des tentatives suivantes. Cette approche transforme le processus de régénération aléatoire des réponses en une correction automatique des erreurs spécifiques par édition de la tentative précédente.