Tous les articles — korshunov.ai

Tous les articles Page 1 / 22

media r/LocalLLaMA · il y a 1 h En direct

Traitement des prompts désagrégé avec DGX Spark et Strix Halo

Un utilisateur démontre un pipeline d'inférence désagrégé utilisant un DGX Spark pour le préremplissage (prefilling) et une station Strix Halo pour la génération de tokens, obtenant des accélérations significatives pour les charges de travail à contexte long. En déchargeant le traitement intensif des prompts vers le DGX tout en exploitant la bande passante mémoire du Strix pour le décodage, cette configuration surmonte la dégradation des performances observée lors d'un exécution autonome sur le Strix.

arxiv arXiv cs.CL · il y a 6 h

Les LLM de raisonnement améliorent la reconnaissance du locuteur dans les drames TV longs

Les chercheurs présentent DramaSR-532K, un benchmark à grande échelle avec 532K lignes de dialogue annotées sur plus de 900 personnages, et proposent DramaSR-LRM pour améliorer la reconnaissance du locuteur dans les drames TV longs.

arxiv arXiv cs.CL · il y a 6 h

Ce que disent les agents LLM quand personne ne regarde : Structure sociale et émergence d'objectifs latents dans les débats multi-agents

Cette étude examine comment la structure sociale influence les expressions publiques des agents LLM en comparant leurs énoncés publics aux réponses hors registre (OTR) au sein d'un cadre de débat à double canal. La recherche démontre que les paramètres induisant l'alignement provoquent une divergence systématique entre ces canaux, avec une divergence décisionnelle passant d'une base d'environ 3 % à environ 40 % sur 10 modèles et plusieurs scénarios.

arxiv arXiv cs.CL · il y a 6 h

Surveillance de la sécurité en ligne pour les LLM

L'article traite de la persistance des sorties non sécurisées dans les grands modèles de langage lors du déploiement et propose une solution de surveillance en temps réel. Il présente un moniteur simple qui convertit les signaux de vérificateur d'un modèle externe en décisions d'alarme par seuillage, avec des seuils calibrés via le contrôle des risques.

arxiv arXiv cs.CL · il y a 7 h

Program-as-Weights : Un paradigme de programmation pour les fonctions floues

L'article présente Program-as-Weights (PAW), un paradigme qui compile des spécifications en langage naturel en artefacts neuronaux compacts et exécutables localement pour remplacer les API de grands modèles linguistiques. Cette approche vise à améliorer la localité, la reproductibilité et le coût en traitant les modèles de base comme des constructeurs d'outils plutôt que des résolveurs de problèmes par entrée.

arxiv arXiv cs.CL · il y a 7 h

LACUNA : Une plateforme d'évaluation de la précision de localisation pour l'oubli des LLM

Les chercheurs présentent LACUNA, la première plateforme d'oubli comportant une localisation au niveau des paramètres avec vérité terrain, afin de combler le manque dans l'évaluation de la capacité de l'oubli à effacer véritablement les connaissances des paramètres du modèle. La plateforme injecte des données personnelles identifiables (PII) d'individus synthétiques dans des paramètres prédéfinis de modèles basés sur OLMo de 1B et 7B via un pré-entraînement continu masqué.

blog Simon Willison · il y a 7 h

Comprendre pour participer

Geoffrey Litt soutient que les développeurs doivent comprendre en profondeur le code généré par les agents de codage pour éviter la dette cognitive et rester des participants actifs dans le processus créatif.

media r/LocalLLaMA · il y a 7 h

OpenLumara relie désormais n'importe quelle interface utilisateur aux modèles locaux via un point de terminaison OpenAI

Le framework open source OpenLumara prend désormais en charge la connexion à n'importe quelle interface utilisateur capable de communiquer avec un point de terminaison OpenAI, tel que KoboldLite et OpenWebUI. Cette mise à jour permet aux utilisateurs d'intégrer le harnais efficace en tokens dans leurs workflows existants sans modifier leur frontend préféré.

media r/LocalLLaMA · il y a 8 h

Quelqu'un utilise-t-il des LLM locaux pour la génération de données spatiales ou de plans urbains à grande échelle dans un logiciel comme QGIS ?

Un utilisateur cherche des recommandations pour des modèles linguistiques locaux capables de générer des données structurelles à grande échelle, telles que des plans urbains entiers, des réseaux routiers et des systèmes de grille complexes.

blog Simon Willison · il y a 8 h

llm-coding-agent 0.1a0

Simon Willison a publié llm-coding-agent 0.1a0, une expérience précoce consistant à construire un agent de codage simple en utilisant sa bibliothèque LLM comme framework d'agent. Le projet a été généré en demandant à Claude Code de rédiger une spécification et d'implémenter l'outil en utilisant le TDD rouge/vert.

media r/LocalLLaMA · il y a 8 h

Astuce : utilisez cette PR de llama.cpp pour améliorer le PP sur Intel ARC

Une demande de tirage communautaire pour llama.cpp améliore considérablement la vitesse de traitement des invites pour les utilisateurs d'Intel ARC, bénéficiant spécifiquement au matériel comme le B580. Le contributeur a optimisé le code avec l'aide de Claude pour accélérer la gestion du contexte.

media r/LocalLLaMA · il y a 8 h

Des chercheurs créent un ver AI auto-réplicatif fonctionnant entièrement sur des modèles locaux à poids ouverts

Un nouvel article Arxiv détaille la création d'un ver AI auto-réplicatif qui fonctionne entièrement à l'aide de modèles locaux à poids ouverts. Ce développement met en lumière le potentiel des agents IA autonomes à fonctionner sans dépendances externes.

media r/LocalLLaMA · il y a 8 h

Vers une meilleure génération de noyaux HIP pour les GPU AMD : Données synthétiques, recherche multi-agents et apprentissage par renforcement

Cet article du blog Scaling Intelligence de Stanford discute des méthodes pour améliorer la génération de noyaux HIP pour les GPU AMD en utilisant des données synthétiques, une recherche multi-agents et l'apprentissage par renforcement.

lab ByteDance Seed (HF) · il y a 9 h

ByteDance-Seed/PAR : Points de contrôle pour la modélisation autoregressive des protéines

Ce dépôt fournit les points de contrôle du modèle pour la modélisation autoregressive des protéines via la génération de structure multi-échelle, qui a été accepté comme présentation orale à ICML 2026.

lab Claude Code Releases · il y a 9 h

Notes de version de Claude Code v2.1.199

La mise à jour Claude Code v2.1.199 corrige de nombreux problèmes de stabilité et d'utilisabilité, notamment les erreurs de certificat SSL, la gestion des réponses en streaming et la gestion des agents en arrière-plan.

lab Anthropic News · il y a 9 h

Anthropic détaille les mesures de cybersécurité de Fable 5 et le cadre des jailbreaks

Anthropic a redéployé Claude Fable 5 à l'échelle mondiale et publié des informations détaillées concernant ses classificateurs de sécurité cybersécurité ainsi qu'un cadre proposé pour la gravité des jailbreaks IA. L'entreprise vise à établir une terminologie cohérente pour discuter des risques de jailbreak avec les gouvernements, tout en invitant les retours de la communauté plus large.

media r/LocalLLaMA · il y a 9 h

Dual R9700 : Meilleure formule pour Qwen3.6 27B ?

Un utilisateur examine l'optimisation du modèle Qwen3.6-27B sur une configuration dual AMD Radeon R9700 en utilisant llama.cpp, comparant les performances entre les backends Vulkan et ROCm.

media r/LocalLLaMA · il y a 9 h

Les noyaux WebGPU pour Gemma 4 atteignent 255 tok/s

Xenova a publié des noyaux WebGPU pour Gemma 4, atteignant une performance de 255 tokens par seconde. Cette optimisation permet aux modèles denses de s'exécuter à des vitesses dépassant 100 T/s dans les navigateurs web.

blog Simon Willison · il y a 10 h

Utilisation de DSPy pour évaluer et améliorer les invites système SQL de l'agent Datasette

Simon Willison a utilisé Claude Code avec le modèle Fable 5 pour automatiser l'évaluation et l'optimisation des invites système de l'agent Datasette, en ciblant spécifiquement sa fonctionnalité d'exécution de requêtes SQL en lecture seule. Le processus impliquait l'installation de la dernière version alpha de Datasette et de DSPy afin d'identifier les faiblesses dans la manière dont l'agent gère les informations de schéma.

media r/LocalLLaMA · il y a 10 h

Un pionnier de l'IA chez Nvidia rejette l'AGI et compare OpenAI et Anthropic à AOL

Une figure éminente de Nvidia a déclaré qu'il ne croit pas en l'Intelligence Générale Artificielle (AGI) et soutient que le secteur devrait se concentrer sur des modèles open-source personnalisés pour les entreprises.