Tous les articles
media Hugging Face Forums · il y a 10 j

La capacité n'est pas dans les poids : résultat empirique négatif sur la projection des poids MLP

Une étude empirique a révélé que la projection des poids MLP d'un modèle transformer vers un autre échoue à transférer la capacité sémantique. Chaque variante testée a obtenu de moins bons résultats que le modèle hôte non modifié, indiquant une limitation structurelle dans la projection des poids. Ces résultats remettent en question les affirmations publiques sur les capacités des modèles basées sur des benchmarks, montrant que de telles affirmations ne reflètent pas la géométrie interne réelle des poids.

media Hugging Face Forums · il y a 10 j

The Clockwork Dark : Un moteur de RPG narratif local-first piloté par l'IA

The Clockwork Dark est un moteur de RPG narratif local-first, piloté par l'IA, qui utilise une machine à états déterministe pour résoudre toutes les mécaniques de jeu. Il propose deux LLMs autonomes pour narrer l'histoire : l'un incarne une voix patiente du monde, l'autre un assistant dieu peu fiable. Le jeu offre aux joueurs le choix entre combattre la corruption surnaturelle envahissante ou embrasser une vie tranquille dans une boulangerie, les deux chemins étant considérés comme des fins valides.

media Hugging Face Forums · il y a 10 j

Bloqué indéfiniment sur 'démarrage' avec un conteneur Docker en cours d'exécution

Un utilisateur signale que son conteneur Docker avec R/Shiny sur rocker/r2u se construit avec succès et affiche 'Listening on http://0.0.0.0:7860' dans les logs, mais l'espace reste dans l'état 'démarrage' et est inaccessible. Le problème persiste malgré l'absence d'erreurs de code, et l'utilisateur sollicite une attention plus large, notant qu'il pourrait s'agir d'un problème côté plateforme avec Hugging Face.

media Hugging Face Forums · il y a 10 j

Comparaison de débogage à petite échelle d'OLMo-core avec greffon Engram

Une comparaison d'entraînement sur 200 étapes entre un modèle de base OLMo3 600M et une version avec un greffon Engram de style DeepSeek montre une perte d'entraînement et d'évaluation plus faible, une stabilisation plus rapide de la norme du gradient et un comportement d'apprentissage précoce amélioré. Le greffon Engram, injecté dans les couches 1 et 5, augmente les paramètres entraînables à ~1,7 Mrd mais ne maintient qu'une augmentation de 40k de paramètres actifs par token, indiquant une utilisation efficace de la mémoire.

media Hugging Face Forums · il y a 10 j

Les LLM comme accélérateurs épistémiques : le risque n'est pas seulement l'hallucination

Les LLM ne se contentent pas d'halluciner ; ils amplifient la surconfiance épistémique humaine en transformant des hypothèses faibles en affirmations cohérentes et polies avant que les preuves ne soient vérifiées. Cela crée un risque de certitude prématurée dans la recherche, les politiques publiques et d'autres domaines, non pas parce que les modèles mentent, mais parce qu'ils accélèrent les tendances humaines à privilégier des explications élégantes plutôt que l'incertitude.

media Hugging Face Forums · il y a 10 j

Espace bloqué sur 'Redémarrage' pour un ancien commit pendant plus de 16 heures

Un Espace Hugging Face est resté bloqué affichant 'Redémarrage' sur le commit 8240352 pendant plus de 16 heures, malgré plusieurs commits plus récents construits avec succès. Le conteneur démarre correctement selon les logs, mais le trafic ne bascule jamais vers la nouvelle version, et les actions de récupération comme la reconstruction d'usine ou le redémarrage n'ont aucun effet.