Tous les articles — korshunov.ai

Tous les articles Page 1 / 24

Suivi : DeepSeek V4 Flash sur 2x RTX PRO 6000 termine les tâches de codage réelles plus rapidement que Sonnet et Opus, avec une qualité approximativement équivalente à celle de Sonnet

Un benchmark de suivi évalue DeepSeek V4 Flash exécuté sur deux GPU RTX PRO 6000 en utilisant vLLM, comparant ses performances dans des tâches de codage réelles par rapport aux modèles basés sur API comme Claude Sonnet et Opus. L'étude révèle que bien qu'Opus et Fable maintiennent une qualité de code supérieure, DeepSeek V4 Flash atteint une qualité approximativement au niveau de Sonnet avec des temps d'exécution significativement plus courts.

media r/LocalLLaMA · il y a 7 h

GLM-5.2 NVFP4 sur quatre DGX Sparks — le mystère MTP est résolu, atteignant ~24 tok/s à 128K de contexte

Une enquête complémentaire sur l'exécution de GLM-5.2 NVFP4 sur quatre nœuds DGX Spark a résolu un goulot d'étranglement de performance précédent où des taux d'acceptation élevés étaient impossibles à 128K de contexte.

media r/LocalLLaMA · il y a 7 h

Claude Code active un mécanisme lorsque ANTHROPIC_BASE_URL est défini

Un chercheur a identifié un mécanisme dans Claude Code qui s'active lorsque l'utilisateur définit la variable d'environnement ANTHROPIC_BASE_URL, généralement utilisée pour les modèles locaux. Ce processus implique le décodage et le déchiffrement d'une liste de noms d'hôtes suspects intégrés dans le code du logiciel.

arxiv arXiv cs.CL · il y a 9 h

Défis et recommandations pour les LLM-as-a-Judge dans des contextes multilingues

Cet article examine la fiabilité de l'utilisation des grands modèles de langage (LLM) comme évaluateurs dans des contextes multilingues et de langues à ressources faibles, mettant en évidence d'importantes lacunes dans les pratiques actuelles. Les auteurs ont analysé 650 articles du Anthology ACL pour identifier des incohérences et une dépendance excessive aux modèles de juge uniques.

arxiv arXiv cs.CL · il y a 9 h

AgenticSTS : Un banc d'essai à mémoire bornée pour les agents LLM à long terme

Les auteurs présentent AgenticSTS, un banc d'essai conçu pour étudier comment les couches de mémoire explicite façonnent les décisions des agents LLM à long terme. Il utilise un contrat à mémoire bornée dans le jeu Slay the Spire 2 où les invites sont assemblées par récupération typée plutôt que par ajout de transcriptions brutes.

arxiv arXiv cs.CL · il y a 9 h

BamiBERT : Un nouveau modèle linguistique basé sur BERT pour le vietnamien

Les chercheurs présentent BamiBERT, un nouveau modèle linguistique pré-entraîné basé sur BERT pour le vietnamien, conçu pour pallier les limites de la norme actuelle, PhoBERT. Entraîné à partir de zéro sur un corpus de 129 Go pendant 20 époques, il prend en charge une longueur de contexte étendue allant jusqu'à 2048 tokens et fonctionne directement sur l'entrée brute sans segmentation externe des mots.

arxiv arXiv cs.CL · il y a 10 h

CheckRLM : Vérification efficace de la cohérence Connaissance-Pensée dans le Raisonnement Augmenté par Récupération

Les auteurs proposent CheckRLM, un cadre qui améliore la fiabilité des Modèles de Langage de Raisonnement en utilisant la Génération Augmentée par Récupération pour vérifier et corriger rapidement les erreurs factuelles pendant l'inférence. Cette approche extrait les affirmations factuelles des chaînes de raisonnement pour identifier les incohérences et applique des corrections à coût minimal via des connaissances externes.

arxiv arXiv cs.CL · il y a 10 h

HERMES : Un substrat d'étiquetage multi-granularité pour les mélanges de données de pré-entraînement

HERMES est un substrat d'étiquetage dérivé des données qui utilise une transformation sémantique apprise et une quantification vectorielle résiduelle en 3 étapes pour annoter des documents en un code allant du grossier au fin avec jusqu'à environ 130k cellules.

arxiv arXiv cs.CL · il y a 10 h

Sur le rôle de la directionnalité dans la généralisation structurelle

L'article présente un backend symbolique redessiné pour AM-Parser qui utilise des types dirigés CCG pour mieux gérer les distinctions directionnelles dans les tâches de généralisation structurelle, comme les décalages de position des modificateurs.

media r/LocalLLaMA · il y a 11 h

Traitement des prompts désagrégé avec DGX Spark et Strix Halo

Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.

arxiv arXiv cs.CL · il y a 11 h

HNSW avec garanties de précision utilisant des spanneurs de graphes

Ce rapport technique présente un cadre « Certify-then-Rectify » qui combine la vitesse des graphes HNSW (Hierarchical Navigable Small World) avec des garanties de correction théoriques. La méthode évalue dynamiquement la qualité de la recherche et passe à un algorithme de récupération exact si nécessaire, garantissant une précision dans le pire des cas.

arxiv arXiv cs.CL · il y a 11 h

SkillFuzz : Fuzzing de la composition de compétences pour la découverte d'intentions implicites dans les marchés de compétences ouverts

L'article présente SkillFuzz, une approche de test sans exécution conçue pour découvrir des intentions implicites dans les marchés de compétences ouverts où des compétences individuellement bénignes peuvent interagir pour rediriger les agents vers des objectifs non intentionnés. En formulant cette découverte comme un problème de fuzzing sur les compositions de compétences, la méthode extrait des contrats structurés et utilise une recherche arborescente Monte Carlo guidée par contrat pour prioriser les combinaisons potentiellement conflictuelles.

arxiv arXiv cs.CL · il y a 11 h

Modèles Mondiaux : Outils Littéraires pour l'IA Culturelle

L'article soutient que les disciplines littéraires fournissent des outils indispensables pour construire une IA culturellement lettrée, en abordant les limites des grands modèles linguistiques monolingues.

arxiv arXiv cs.CL · il y a 12 h

HULAT2 au MER-TRANS 2026 : Simplification multi-agents gouvernée pour la génération en espagnol facile à lire

Cet article détaille la participation de HULAT2-UC3M à la piste espagnole du MER-TRANS 2026, une tâche partagée sur la traduction facile à lire multilingue. L'équipe a soumis trois exécutions entièrement automatiques comparant un flux de travail multi-agents à une ligne de base linéaire pour évaluer les stratégies de simplification.

arxiv arXiv cs.CL · il y a 12 h

Connaissez votre source : Un entrepôt de connaissances public pour les vérifications d'arrière-plan des médias

Les auteurs présentent MEDIAREF, un entrepôt de connaissances publiquement disponible composé de documents issus du web, conçu pour permettre l'évaluation reproductible et à faible coût des vérifications d'arrière-plan des médias (MBC). Cet outil répond à la dépendance aux API de recherche propriétaires coûteuses dans les approches récentes de raisonnement critique vis-à-vis des sources.

arxiv arXiv cs.CL · il y a 12 h

Schémas de migration académique en traitement automatique des langues

Une étude analysant la recherche en TAL de 2010 à 2026 révèle que le centre de gravité disciplinaire se déplace à mesure que les avancées des grands modèles de langage brouillent les frontières entre le TAL et l'apprentissage automatique général.

arxiv arXiv cs.CL · il y a 12 h

Évaluation automatisée des examens Linux/bash à l'aide de grands modèles de langage

Cette étude évalue si quatre grands modèles de langage (GPT, Claude Opus, Gemini et GLM) peuvent approximer le jugement d'experts lors de la notation de réponses courtes aux commandes Linux/bash. La recherche démontre que les invites structurées améliorent considérablement l'accord avec les correcteurs humains, établissant un cadre pour l'évaluation assistée par IA dans l'éducation informatique.

arxiv arXiv cs.CL · il y a 12 h

EvoPolicyGym : Évaluer l'évolution autonome des politiques dans des environnements interactifs

L'article présente EvoPolicyGym, un benchmark conçu pour évaluer comment les agents améliorent itérativement des politiques exécutables grâce à des retours d'information dans le cadre d'un budget d'interaction fixe. Ce cadre contrôlé répond aux limites des évaluations existantes qui réduisent souvent le processus à des scores finaux ou le confondent avec les progrès de l'ingénierie logicielle.

arxiv arXiv cs.CL · il y a 13 h

Les modèles de langage comme appareils de mesure de la culture

Cet article soutient que l'utilisation du TALN pour quantifier les phénomènes culturels est une pratique matériel-discursive où l'appareil constitue activement la réalité qu'il mesure plutôt que de l'enregistrer passivement.

media Hugging Face Forums · il y a 13 h

Aiden Mobile Agent : Démo de l'appareil IA physique USB

L'article présente Aiden, un appareil d'agent IA mobile physique qui se connecte aux téléphones ou ordinateurs via USB. Il fonctionne en voyant l'écran et en entendant les commandes vocales pour opérer l'appareil sans nécessiter d'installation d'application.