Tous les articles
arxiv arXiv cs.CL · il y a 8 h

BamiBERT : Un nouveau modèle linguistique basé sur BERT pour le vietnamien

Les chercheurs présentent BamiBERT, un nouveau modèle linguistique pré-entraîné basé sur BERT pour le vietnamien, conçu pour pallier les limites de la norme actuelle, PhoBERT. Entraîné à partir de zéro sur un corpus de 129 Go pendant 20 époques, il prend en charge une longueur de contexte étendue allant jusqu'à 2048 tokens et fonctionne directement sur l'entrée brute sans segmentation externe des mots.

arxiv arXiv cs.CL · il y a 8 h

CheckRLM : Vérification efficace de la cohérence Connaissance-Pensée dans le Raisonnement Augmenté par Récupération

Les auteurs proposent CheckRLM, un cadre qui améliore la fiabilité des Modèles de Langage de Raisonnement en utilisant la Génération Augmentée par Récupération pour vérifier et corriger rapidement les erreurs factuelles pendant l'inférence. Cette approche extrait les affirmations factuelles des chaînes de raisonnement pour identifier les incohérences et applique des corrections à coût minimal via des connaissances externes.

media r/LocalLLaMA · il y a 9 h

Traitement des prompts désagrégé avec DGX Spark et Strix Halo

Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.

arxiv arXiv cs.CL · il y a 10 h

SkillFuzz : Fuzzing de la composition de compétences pour la découverte d'intentions implicites dans les marchés de compétences ouverts

L'article présente SkillFuzz, une approche de test sans exécution conçue pour découvrir des intentions implicites dans les marchés de compétences ouverts où des compétences individuellement bénignes peuvent interagir pour rediriger les agents vers des objectifs non intentionnés. En formulant cette découverte comme un problème de fuzzing sur les compositions de compétences, la méthode extrait des contrats structurés et utilise une recherche arborescente Monte Carlo guidée par contrat pour prioriser les combinaisons potentiellement conflictuelles.

arxiv arXiv cs.CL · il y a 11 h

Connaissez votre source : Un entrepôt de connaissances public pour les vérifications d'arrière-plan des médias

Les auteurs présentent MEDIAREF, un entrepôt de connaissances publiquement disponible composé de documents issus du web, conçu pour permettre l'évaluation reproductible et à faible coût des vérifications d'arrière-plan des médias (MBC). Cet outil répond à la dépendance aux API de recherche propriétaires coûteuses dans les approches récentes de raisonnement critique vis-à-vis des sources.

arxiv arXiv cs.CL · il y a 11 h

Évaluation automatisée des examens Linux/bash à l'aide de grands modèles de langage

Cette étude évalue si quatre grands modèles de langage (GPT, Claude Opus, Gemini et GLM) peuvent approximer le jugement d'experts lors de la notation de réponses courtes aux commandes Linux/bash. La recherche démontre que les invites structurées améliorent considérablement l'accord avec les correcteurs humains, établissant un cadre pour l'évaluation assistée par IA dans l'éducation informatique.

arxiv arXiv cs.CL · il y a 11 h

EvoPolicyGym : Évaluer l'évolution autonome des politiques dans des environnements interactifs

L'article présente EvoPolicyGym, un benchmark conçu pour évaluer comment les agents améliorent itérativement des politiques exécutables grâce à des retours d'information dans le cadre d'un budget d'interaction fixe. Ce cadre contrôlé répond aux limites des évaluations existantes qui réduisent souvent le processus à des scores finaux ou le confondent avec les progrès de l'ingénierie logicielle.

arxiv arXiv cs.CL · il y a 13 h

Le scaling améliorera-t-il la simulation sociale avec les LLM ?

Cette étude examine si les paradigmes actuels de mise à l'échelle des modèles de langage peuvent combler les écarts de fidélité dans les simulations sociales, notamment en modélisation des opinions, simulation comportementale et prévision longitudinale. En utilisant 85 modèles transformateurs Qwen3 entraînés sur le corpus DCLM avec des budgets de calcul fixes allant de 10^18 à 10^20 FLOPs, les auteurs analysent la relation entre l'échelle de calcul et la précision de la simulation.

arxiv arXiv cs.CL · il y a 14 h

Vers la robustesse contre les attaques typographiques avec la localisation de concepts sans entraînement

Les auteurs proposent une méthode sans entraînement pour atténuer les attaques typographiques dans les encodeurs visuels basés sur CLIP, où le texte non pertinent biaise les représentations visuelles vers le sens lexical. En utilisant des interprétations par échantillonnage et le minage de circuits, l'approche isole les composants spécifiques du Vision Transformer responsables de l'encodage de ces informations lexicales indésirables.