Tous les articles
media r/LocalLLaMA · il y a 5 h

Traitement des prompts désagrégé avec DGX Spark et Strix Halo

Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.

arxiv arXiv cs.CL · il y a 7 h

EvoPolicyGym : Évaluer l'évolution autonome des politiques dans des environnements interactifs

L'article présente EvoPolicyGym, un benchmark conçu pour évaluer comment les agents améliorent itérativement des politiques exécutables grâce à des retours d'information dans le cadre d'un budget d'interaction fixe. Ce cadre contrôlé répond aux limites des évaluations existantes qui réduisent souvent le processus à des scores finaux ou le confondent avec les progrès de l'ingénierie logicielle.

arxiv arXiv cs.CL · il y a 9 h

Le scaling améliorera-t-il la simulation sociale avec les LLM ?

Cette étude examine si les paradigmes actuels de mise à l'échelle des modèles de langage peuvent combler les écarts de fidélité dans les simulations sociales, notamment en modélisation des opinions, simulation comportementale et prévision longitudinale. En utilisant 85 modèles transformateurs Qwen3 entraînés sur le corpus DCLM avec des budgets de calcul fixes allant de 10^18 à 10^20 FLOPs, les auteurs analysent la relation entre l'échelle de calcul et la précision de la simulation.

arxiv arXiv cs.CL · il y a 10 h

Vers la robustesse contre les attaques typographiques avec la localisation de concepts sans entraînement

Les auteurs proposent une méthode sans entraînement pour atténuer les attaques typographiques dans les encodeurs visuels basés sur CLIP, où le texte non pertinent biaise les représentations visuelles vers le sens lexical. En utilisant des interprétations par échantillonnage et le minage de circuits, l'approche isole les composants spécifiques du Vision Transformer responsables de l'encodage de ces informations lexicales indésirables.

arxiv arXiv cs.CL · il y a 10 h

Ce que disent les agents LLM quand personne ne regarde : Structure sociale et émergence d'objectifs latents dans les débats multi-agents

Cette étude examine comment la structure sociale influence les expressions publiques des agents LLM en comparant leurs énoncés publics aux réponses hors registre (OTR) au sein d'un cadre de débat à double canal. La recherche démontre que les paramètres induisant l'alignement provoquent une divergence systématique entre ces canaux, avec une divergence décisionnelle passant d'une base d'environ 3 % à environ 40 % sur 10 modèles et plusieurs scénarios.

arxiv arXiv cs.CL · il y a 10 h

Program-as-Weights : Un paradigme de programmation pour les fonctions floues

L'article présente Program-as-Weights (PAW), un paradigme qui compile des spécifications en langage naturel en artefacts neuronaux compacts et exécutables localement pour remplacer les API de grands modèles linguistiques. Cette approche vise à améliorer la localité, la reproductibilité et le coût en traitant les modèles de base comme des constructeurs d'outils plutôt que des résolveurs de problèmes par entrée.

arxiv arXiv cs.CL · il y a 11 h

LACUNA : Une plateforme d'évaluation de la précision de localisation pour l'oubli des LLM

Les chercheurs présentent LACUNA, la première plateforme d'oubli comportant une localisation au niveau des paramètres avec vérité terrain, afin de combler le manque dans l'évaluation de la capacité de l'oubli à effacer véritablement les connaissances des paramètres du modèle. La plateforme injecte des données personnelles identifiables (PII) d'individus synthétiques dans des paramètres prédéfinis de modèles basés sur OLMo de 1B et 7B via un pré-entraînement continu masqué.

media r/LocalLLaMA · il y a 11 h

OpenLumara relie désormais n'importe quelle interface utilisateur aux modèles locaux via un point de terminaison OpenAI

Le framework open source OpenLumara prend désormais en charge la connexion à n'importe quelle interface utilisateur capable de communiquer avec un point de terminaison OpenAI, tel que KoboldLite et OpenWebUI. Cette mise à jour permet aux utilisateurs d'intégrer le harnais efficace en tokens dans leurs workflows existants sans modifier leur frontend préféré.