Tous les articles — korshunov.ai

Tous les articles Page 1 / 24

Suivi : DeepSeek V4 Flash sur 2x RTX PRO 6000 termine les tâches de codage réelles plus rapidement que Sonnet et Opus, avec une qualité approximativement équivalente à celle de Sonnet

Un benchmark de suivi évalue DeepSeek V4 Flash exécuté sur deux GPU RTX PRO 6000 en utilisant vLLM, comparant ses performances dans des tâches de codage réelles par rapport aux modèles basés sur API comme Claude Sonnet et Opus. L'étude révèle que bien qu'Opus et Fable maintiennent une qualité de code supérieure, DeepSeek V4 Flash atteint une qualité approximativement au niveau de Sonnet avec des temps d'exécution significativement plus courts.

media r/LocalLLaMA · il y a 5 h

Cartographie des nœuds locaux - Mildlyinteresting

L'auteur partage ses observations sur la cartographie et le pilotage des modèles locaux en se basant sur leurs chemins d'activation lors de contextes spécifiques. L'article met en évidence la variance des chemins d'activation entre différents modèles lors de la réponse à un ensemble d'invites par lots.

media r/LocalLLaMA · il y a 5 h

Activation du mode P2P sur des RTX 3090 doubles ; chiffres avant/après (Qwen3.6-27B INT4, contexte 256k)

Un utilisateur a testé l'impact de l'activation du mode Peer-to-Peer (P2P) sur une configuration double NVIDIA RTX 3090 avec des liens PCIe 4.0 8x/8x. Le benchmark impliquait cinq passes avec nvbandwidth et un script de test de décodage/trempe standard pour le modèle Qwen3.6-27B INT4 avec une fenêtre de contexte de 256k.

media r/LocalLLaMA · il y a 5 h

L'organisation HF de Palantir n'a aucun modèle ou jeu de données open source

Un post Reddit met en évidence que l'organisation de Palantir sur Hugging Face ne contient actuellement aucun modèle open source et aucun jeu de données public. Cette observation a été partagée par clem 🤗 sur X, soulignant le manque de contributions malgré la présence de l'entreprise sur la plateforme.

media r/LocalLLaMA · il y a 5 h

GLM5.2 sur 5x Pro 6000 et un 5090, un voyage coûteux

Un utilisateur détaille son processus de mise à niveau matérielle étendu pour exécuter le modèle GLM 5.2 localement, aboutissant à une configuration de cinq GPU AMD Radeon Pro W6800 et un NVIDIA RTX 5090.

github llama.cpp · il y a 6 h

llama.cpp b9861 avec mise à jour de cpp-httplib

Le projet llama.cpp a publié la version b9861, qui inclut une mise à jour du fournisseur vers cpp-httplib 0.49.0.

github llama.cpp · il y a 7 h

llama.cpp b9862 release : optimisation CUDA et binaires multi-plateformes

Le projet llama.cpp a publié la version b9862, offrant une optimisation de performance pour l'opération gated_delta_net et fournissant des binaires préconstruits pour macOS, Linux, Windows, Android et openEuler.

github llama.cpp · il y a 7 h

llama.cpp b9864 release : Intervalle de ping SSE par requête et binaires pour plateformes

La release b9864 de llama.cpp introduit un changement dans la gestion des Server-Sent Events (SSE) du serveur, permettant de configurer l'intervalle de ping au cas par cas. Cette mise à jour garantit que les opérations de prefill lentes ne coupent pas les connexions saines en envoyant un ping aux flux silencieux toutes les 1 seconde et en les interrompant uniquement après 3 secondes.

media r/LocalLLaMA · il y a 7 h

GLM-5.2 NVFP4 sur quatre DGX Sparks — le mystère MTP est résolu, atteignant ~24 tok/s à 128K de contexte

Une enquête complémentaire sur l'exécution de GLM-5.2 NVFP4 sur quatre nœuds DGX Spark a résolu un goulot d'étranglement de performance précédent où des taux d'acceptation élevés étaient impossibles à 128K de contexte.

media r/LocalLLaMA · il y a 8 h

Claude Code active un mécanisme lorsque ANTHROPIC_BASE_URL est défini

Un chercheur a identifié un mécanisme dans Claude Code qui s'active lorsque l'utilisateur définit la variable d'environnement ANTHROPIC_BASE_URL, généralement utilisée pour les modèles locaux. Ce processus implique le décodage et le déchiffrement d'une liste de noms d'hôtes suspects intégrés dans le code du logiciel.

media r/LocalLLaMA · il y a 8 h

DeepSeek dévoile une autre percée majeure : DSpark. Bien plus rapide que MTP [Vidéo explicative]

Un utilisateur de Reddit a partagé un lien vidéo concernant une nouvelle percée de DeepSeek appelée DSpark, décrite comme étant significativement plus rapide que MTP.

media Hugging Face Forums · il y a 8 h

Un utilisateur demande la révision d'un espace Hugging Face signalé comme abusif

Un utilisateur nommé Bitguy07 signale que son espace Hugging Face, "Bitguy07/browser-automation-studio", est automatiquement mis en pause et signalé comme abusif immédiatement après chaque build réussi. L'API runtime renvoie un statut de "PAUSED" avec le message d'erreur "Flagged as abusive", empêchant le conteneur de démarrer.

media Hugging Face Forums · il y a 8 h

Validation inter-domain d'un cadre unifié d'auto-organisation

Un cadre mathématique unifié pour l'auto-organisation dans les systèmes complexes reçoit un soutien expérimental de deux domaines physiques indépendants : la décohérence quantique et les transitions de condensat de Bose-Einstein classique. L'étude rapporte que le couplage non local agit comme un « amplificateur critique », produisant des effets maximaux aux frontières de phase où les systèmes sont les plus sensibles.

media Hugging Face Forums · il y a 9 h

Le problème de l'IAG : L'intelligence n'est pas un perroquet

L'article soutient que les systèmes d'IA actuels souffrent d'erreurs de « catégorie » fondamentales ancrées dans le réductionnisme, les empêchant d'atteindre une véritable Intelligence Artificielle Générale (IAG). Il fait valoir qu'un perroquet sophistiqué ne peut pas combler le fossé entre les réponses simulées et la compréhension réelle.

media Hugging Face Forums · il y a 9 h

Octopus Smart construit un système d'analyse de la Coupe du Monde alimenté par l'IA

Octopus Smart développe Octopus Football, une plateforme d'analyse pour la Coupe du Monde et les tournois professionnels qui utilise l'orchestration d'intelligence de match alimentée par l'IA. Le système combine des modèles d'analyse prédictive avec des agents d'intelligence des données pour fournir la modélisation des performances des équipes, les évaluations des joueurs et des résumés automatiques des matchs.

arxiv arXiv cs.CL · il y a 9 h

Défis et recommandations pour les LLM-as-a-Judge dans des contextes multilingues

Cet article examine la fiabilité de l'utilisation des grands modèles de langage (LLM) comme évaluateurs dans des contextes multilingues et de langues à ressources faibles, mettant en évidence d'importantes lacunes dans les pratiques actuelles. Les auteurs ont analysé 650 articles du Anthology ACL pour identifier des incohérences et une dépendance excessive aux modèles de juge uniques.

arxiv arXiv cs.CL · il y a 10 h

AgenticSTS : Un banc d'essai à mémoire bornée pour les agents LLM à long terme

Les auteurs présentent AgenticSTS, un banc d'essai conçu pour étudier comment les couches de mémoire explicite façonnent les décisions des agents LLM à long terme. Il utilise un contrat à mémoire bornée dans le jeu Slay the Spire 2 où les invites sont assemblées par récupération typée plutôt que par ajout de transcriptions brutes.

arxiv arXiv cs.CL · il y a 10 h

BamiBERT : Un nouveau modèle linguistique basé sur BERT pour le vietnamien

Les chercheurs présentent BamiBERT, un nouveau modèle linguistique pré-entraîné basé sur BERT pour le vietnamien, conçu pour pallier les limites de la norme actuelle, PhoBERT. Entraîné à partir de zéro sur un corpus de 129 Go pendant 20 époques, il prend en charge une longueur de contexte étendue allant jusqu'à 2048 tokens et fonctionne directement sur l'entrée brute sans segmentation externe des mots.

arxiv arXiv cs.CL · il y a 10 h

CheckRLM : Vérification efficace de la cohérence Connaissance-Pensée dans le Raisonnement Augmenté par Récupération

Les auteurs proposent CheckRLM, un cadre qui améliore la fiabilité des Modèles de Langage de Raisonnement en utilisant la Génération Augmentée par Récupération pour vérifier et corriger rapidement les erreurs factuelles pendant l'inférence. Cette approche extrait les affirmations factuelles des chaînes de raisonnement pour identifier les incohérences et applique des corrections à coût minimal via des connaissances externes.

arxiv arXiv cs.CL · il y a 10 h

HERMES : Un substrat d'étiquetage multi-granularité pour les mélanges de données de pré-entraînement

HERMES est un substrat d'étiquetage dérivé des données qui utilise une transformation sémantique apprise et une quantification vectorielle résiduelle en 3 étapes pour annoter des documents en un code allant du grossier au fin avec jusqu'à environ 130k cellules.