Tous les articles — korshunov.ai

Tous les articles Page 1 / 23

Traitement des prompts désagrégé avec DGX Spark et Strix Halo

Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.

arxiv arXiv cs.CL · il y a 8 h

HNSW avec garanties de précision utilisant des spanneurs de graphes

Ce rapport technique présente un cadre « Certify-then-Rectify » qui combine la vitesse des graphes HNSW (Hierarchical Navigable Small World) avec des garanties de correction théoriques. La méthode évalue dynamiquement la qualité de la recherche et passe à un algorithme de récupération exact si nécessaire, garantissant une précision dans le pire des cas.

arxiv arXiv cs.CL · il y a 8 h

SkillFuzz : Fuzzing de la composition de compétences pour la découverte d'intentions implicites dans les marchés de compétences ouverts

L'article présente SkillFuzz, une approche de test sans exécution conçue pour découvrir des intentions implicites dans les marchés de compétences ouverts où des compétences individuellement bénignes peuvent interagir pour rediriger les agents vers des objectifs non intentionnés. En formulant cette découverte comme un problème de fuzzing sur les compositions de compétences, la méthode extrait des contrats structurés et utilise une recherche arborescente Monte Carlo guidée par contrat pour prioriser les combinaisons potentiellement conflictuelles.

arxiv arXiv cs.CL · il y a 9 h

Modèles Mondiaux : Outils Littéraires pour l'IA Culturelle

L'article soutient que les disciplines littéraires fournissent des outils indispensables pour construire une IA culturellement lettrée, en abordant les limites des grands modèles linguistiques monolingues.

arxiv arXiv cs.CL · il y a 9 h

HULAT2 au MER-TRANS 2026 : Simplification multi-agents gouvernée pour la génération en espagnol facile à lire

Cet article détaille la participation de HULAT2-UC3M à la piste espagnole du MER-TRANS 2026, une tâche partagée sur la traduction facile à lire multilingue. L'équipe a soumis trois exécutions entièrement automatiques comparant un flux de travail multi-agents à une ligne de base linéaire pour évaluer les stratégies de simplification.

arxiv arXiv cs.CL · il y a 9 h

Connaissez votre source : Un entrepôt de connaissances public pour les vérifications d'arrière-plan des médias

Les auteurs présentent MEDIAREF, un entrepôt de connaissances publiquement disponible composé de documents issus du web, conçu pour permettre l'évaluation reproductible et à faible coût des vérifications d'arrière-plan des médias (MBC). Cet outil répond à la dépendance aux API de recherche propriétaires coûteuses dans les approches récentes de raisonnement critique vis-à-vis des sources.

arxiv arXiv cs.CL · il y a 9 h

Schémas de migration académique en traitement automatique des langues

Une étude analysant la recherche en TAL de 2010 à 2026 révèle que le centre de gravité disciplinaire se déplace à mesure que les avancées des grands modèles de langage brouillent les frontières entre le TAL et l'apprentissage automatique général.

arxiv arXiv cs.CL · il y a 9 h

Évaluation automatisée des examens Linux/bash à l'aide de grands modèles de langage

Cette étude évalue si quatre grands modèles de langage (GPT, Claude Opus, Gemini et GLM) peuvent approximer le jugement d'experts lors de la notation de réponses courtes aux commandes Linux/bash. La recherche démontre que les invites structurées améliorent considérablement l'accord avec les correcteurs humains, établissant un cadre pour l'évaluation assistée par IA dans l'éducation informatique.

arxiv arXiv cs.CL · il y a 10 h

EvoPolicyGym : Évaluer l'évolution autonome des politiques dans des environnements interactifs

L'article présente EvoPolicyGym, un benchmark conçu pour évaluer comment les agents améliorent itérativement des politiques exécutables grâce à des retours d'information dans le cadre d'un budget d'interaction fixe. Ce cadre contrôlé répond aux limites des évaluations existantes qui réduisent souvent le processus à des scores finaux ou le confondent avec les progrès de l'ingénierie logicielle.

arxiv arXiv cs.CL · il y a 10 h

Les modèles de langage comme appareils de mesure de la culture

Cet article soutient que l'utilisation du TALN pour quantifier les phénomènes culturels est une pratique matériel-discursive où l'appareil constitue activement la réalité qu'il mesure plutôt que de l'enregistrer passivement.

arxiv arXiv cs.CL · il y a 11 h

Le scaling améliorera-t-il la simulation sociale avec les LLM ?

Cette étude examine si les paradigmes actuels de mise à l'échelle des modèles de langage peuvent combler les écarts de fidélité dans les simulations sociales, notamment en modélisation des opinions, simulation comportementale et prévision longitudinale. En utilisant 85 modèles transformateurs Qwen3 entraînés sur le corpus DCLM avec des budgets de calcul fixes allant de 10^18 à 10^20 FLOPs, les auteurs analysent la relation entre l'échelle de calcul et la précision de la simulation.

arxiv arXiv cs.CL · il y a 11 h

TestEvo-Bench : Un benchmark exécutable et en temps réel pour la co-évolution des tests et du code

Les auteurs présentent TestEvo-Bench, un benchmark en temps réel conçu pour évaluer la capacité des agents d'automatisation des tests à gérer la co-évolution du code et des tests. Il comble les lacunes des benchmarks existants en fournissant des tâches exécutables ancrées dans des historiques de commits réels avec des configurations d'environnement.

arxiv arXiv cs.CL · il y a 12 h

Compréhension basée sur l'audio de l'appel à la narration d'un livre audio

Cette étude examine comment les caractéristiques vocales et acoustiques influencent l'attrait des livres audio en analysant les données de LibriVox. Elle établit une association robuste entre les qualités de narration et les métriques de consommation, même après prise en compte des effets liés au titre.

arxiv arXiv cs.CL · il y a 12 h

Auto-réflexion ancrée visuellement pour les modèles vision-langage via l'apprentissage par renforcement

Les auteurs proposent VRRL, un cadre d'apprentissage par renforcement conçu pour permettre aux modèles vision-langage d'effectuer une auto-réflexion ancrée visuellement lors du raisonnement en chaîne de pensée.

arxiv arXiv cs.CL · il y a 12 h

Vers la robustesse contre les attaques typographiques avec la localisation de concepts sans entraînement

Les auteurs proposent une méthode sans entraînement pour atténuer les attaques typographiques dans les encodeurs visuels basés sur CLIP, où le texte non pertinent biaise les représentations visuelles vers le sens lexical. En utilisant des interprétations par échantillonnage et le minage de circuits, l'approche isole les composants spécifiques du Vision Transformer responsables de l'encodage de ces informations lexicales indésirables.

arxiv arXiv cs.CL · il y a 12 h

Les LLM de raisonnement améliorent la reconnaissance du locuteur dans les drames TV longs

Les chercheurs présentent DramaSR-532K, un benchmark à grande échelle avec 532K lignes de dialogue annotées sur plus de 900 personnages, et proposent DramaSR-LRM pour améliorer la reconnaissance du locuteur dans les drames TV longs.

arxiv arXiv cs.CL · il y a 12 h

Ce que disent les agents LLM quand personne ne regarde : Structure sociale et émergence d'objectifs latents dans les débats multi-agents

Cette étude examine comment la structure sociale influence les expressions publiques des agents LLM en comparant leurs énoncés publics aux réponses hors registre (OTR) au sein d'un cadre de débat à double canal. La recherche démontre que les paramètres induisant l'alignement provoquent une divergence systématique entre ces canaux, avec une divergence décisionnelle passant d'une base d'environ 3 % à environ 40 % sur 10 modèles et plusieurs scénarios.

arxiv arXiv cs.CL · il y a 13 h

Surveillance de la sécurité en ligne pour les LLM

L'article traite de la persistance des sorties non sécurisées dans les grands modèles de langage lors du déploiement et propose une solution de surveillance en temps réel. Il présente un moniteur simple qui convertit les signaux de vérificateur d'un modèle externe en décisions d'alarme par seuillage, avec des seuils calibrés via le contrôle des risques.

arxiv arXiv cs.CL · il y a 13 h

Program-as-Weights : Un paradigme de programmation pour les fonctions floues

L'article présente Program-as-Weights (PAW), un paradigme qui compile des spécifications en langage naturel en artefacts neuronaux compacts et exécutables localement pour remplacer les API de grands modèles linguistiques. Cette approche vise à améliorer la localité, la reproductibilité et le coût en traitant les modèles de base comme des constructeurs d'outils plutôt que des résolveurs de problèmes par entrée.

arxiv arXiv cs.CL · il y a 13 h

LACUNA : Une plateforme d'évaluation de la précision de localisation pour l'oubli des LLM

Les chercheurs présentent LACUNA, la première plateforme d'oubli comportant une localisation au niveau des paramètres avec vérité terrain, afin de combler le manque dans l'évaluation de la capacité de l'oubli à effacer véritablement les connaissances des paramètres du modèle. La plateforme injecte des données personnelles identifiables (PII) d'individus synthétiques dans des paramètres prédéfinis de modèles basés sur OLMo de 1B et 7B via un pré-entraînement continu masqué.