Tous les articles
media r/LocalLLaMA · il y a 3 h

Suivi : DeepSeek V4 Flash sur 2x RTX PRO 6000 termine les tâches de codage réelles plus rapidement que Sonnet et Opus, avec une qualité approximativement équivalente à celle de Sonnet

Un benchmark de suivi évalue DeepSeek V4 Flash exécuté sur deux GPU RTX PRO 6000 en utilisant vLLM, comparant ses performances dans des tâches de codage réelles par rapport aux modèles basés sur API comme Claude Sonnet et Opus. L'étude révèle que bien qu'Opus et Fable maintiennent une qualité de code supérieure, DeepSeek V4 Flash atteint une qualité approximativement au niveau de Sonnet avec des temps d'exécution significativement plus courts.

media Hugging Face Forums · il y a 7 h

Validation inter-domain d'un cadre unifié d'auto-organisation

Un cadre mathématique unifié pour l'auto-organisation dans les systèmes complexes reçoit un soutien expérimental de deux domaines physiques indépendants : la décohérence quantique et les transitions de condensat de Bose-Einstein classique. L'étude rapporte que le couplage non local agit comme un « amplificateur critique », produisant des effets maximaux aux frontières de phase où les systèmes sont les plus sensibles.

media Hugging Face Forums · il y a 8 h

Octopus Smart construit un système d'analyse de la Coupe du Monde alimenté par l'IA

Octopus Smart développe Octopus Football, une plateforme d'analyse pour la Coupe du Monde et les tournois professionnels qui utilise l'orchestration d'intelligence de match alimentée par l'IA. Le système combine des modèles d'analyse prédictive avec des agents d'intelligence des données pour fournir la modélisation des performances des équipes, les évaluations des joueurs et des résumés automatiques des matchs.

arxiv arXiv cs.CL · il y a 8 h

Défis et recommandations pour les LLM-as-a-Judge dans des contextes multilingues

Cet article examine la fiabilité de l'utilisation des grands modèles de langage (LLM) comme évaluateurs dans des contextes multilingues et de langues à ressources faibles, mettant en évidence d'importantes lacunes dans les pratiques actuelles. Les auteurs ont analysé 650 articles du Anthology ACL pour identifier des incohérences et une dépendance excessive aux modèles de juge uniques.

arxiv arXiv cs.CL · il y a 8 h

BamiBERT : Un nouveau modèle linguistique basé sur BERT pour le vietnamien

Les chercheurs présentent BamiBERT, un nouveau modèle linguistique pré-entraîné basé sur BERT pour le vietnamien, conçu pour pallier les limites de la norme actuelle, PhoBERT. Entraîné à partir de zéro sur un corpus de 129 Go pendant 20 époques, il prend en charge une longueur de contexte étendue allant jusqu'à 2048 tokens et fonctionne directement sur l'entrée brute sans segmentation externe des mots.

arxiv arXiv cs.CL · il y a 9 h

CheckRLM : Vérification efficace de la cohérence Connaissance-Pensée dans le Raisonnement Augmenté par Récupération

Les auteurs proposent CheckRLM, un cadre qui améliore la fiabilité des Modèles de Langage de Raisonnement en utilisant la Génération Augmentée par Récupération pour vérifier et corriger rapidement les erreurs factuelles pendant l'inférence. Cette approche extrait les affirmations factuelles des chaînes de raisonnement pour identifier les incohérences et applique des corrections à coût minimal via des connaissances externes.

media r/LocalLLaMA · il y a 10 h

Traitement des prompts désagrégé avec DGX Spark et Strix Halo

Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.

arxiv arXiv cs.CL · il y a 10 h

SkillFuzz : Fuzzing de la composition de compétences pour la découverte d'intentions implicites dans les marchés de compétences ouverts

L'article présente SkillFuzz, une approche de test sans exécution conçue pour découvrir des intentions implicites dans les marchés de compétences ouverts où des compétences individuellement bénignes peuvent interagir pour rediriger les agents vers des objectifs non intentionnés. En formulant cette découverte comme un problème de fuzzing sur les compositions de compétences, la méthode extrait des contrats structurés et utilise une recherche arborescente Monte Carlo guidée par contrat pour prioriser les combinaisons potentiellement conflictuelles.