Tous les articles — korshunov.ai

Tous les articles Page 1 / 21

Comprendre pour participer

Geoffrey Litt soutient que les développeurs doivent comprendre en profondeur le code généré par les agents de codage pour éviter la dette cognitive et rester des participants actifs dans le processus créatif.

media r/LocalLLaMA · il y a 4 h

OpenLumara relie désormais n'importe quelle interface utilisateur aux modèles locaux via un point de terminaison OpenAI

Le framework open source OpenLumara prend désormais en charge la connexion à n'importe quelle interface utilisateur capable de communiquer avec un point de terminaison OpenAI, tel que KoboldLite et OpenWebUI. Cette mise à jour permet aux utilisateurs d'intégrer le harnais efficace en tokens dans leurs workflows existants sans modifier leur frontend préféré.

media r/LocalLLaMA · il y a 4 h

Quelqu'un utilise-t-il des LLM locaux pour la génération de données spatiales ou de plans urbains à grande échelle dans un logiciel comme QGIS ?

Un utilisateur cherche des recommandations pour des modèles linguistiques locaux capables de générer des données structurelles à grande échelle, telles que des plans urbains entiers, des réseaux routiers et des systèmes de grille complexes.

blog Simon Willison · il y a 4 h

llm-coding-agent 0.1a0

Simon Willison a publié llm-coding-agent 0.1a0, une expérience précoce consistant à construire un agent de codage simple en utilisant sa bibliothèque LLM comme framework d'agent. Le projet a été généré en demandant à Claude Code de rédiger une spécification et d'implémenter l'outil en utilisant le TDD rouge/vert.

media r/LocalLLaMA · il y a 4 h

Astuce : utilisez cette PR de llama.cpp pour améliorer le PP sur Intel ARC

Une demande de tirage communautaire pour llama.cpp améliore considérablement la vitesse de traitement des invites pour les utilisateurs d'Intel ARC, bénéficiant spécifiquement au matériel comme le B580. Le contributeur a optimisé le code avec l'aide de Claude pour accélérer la gestion du contexte.

media r/LocalLLaMA · il y a 5 h

Des chercheurs créent un ver AI auto-réplicatif fonctionnant entièrement sur des modèles locaux à poids ouverts

Un nouvel article Arxiv détaille la création d'un ver AI auto-réplicatif qui fonctionne entièrement à l'aide de modèles locaux à poids ouverts. Ce développement met en lumière le potentiel des agents IA autonomes à fonctionner sans dépendances externes.

media r/LocalLLaMA · il y a 5 h

Vers une meilleure génération de noyaux HIP pour les GPU AMD : Données synthétiques, recherche multi-agents et apprentissage par renforcement

Cet article du blog Scaling Intelligence de Stanford discute des méthodes pour améliorer la génération de noyaux HIP pour les GPU AMD en utilisant des données synthétiques, une recherche multi-agents et l'apprentissage par renforcement.

lab Claude Code Releases · il y a 5 h

Notes de version de Claude Code v2.1.199

La mise à jour Claude Code v2.1.199 corrige de nombreux problèmes de stabilité et d'utilisabilité, notamment les erreurs de certificat SSL, la gestion des réponses en streaming et la gestion des agents en arrière-plan.

lab Anthropic News · il y a 5 h

Anthropic détaille les mesures de cybersécurité de Fable 5 et le cadre des jailbreaks

Anthropic a redéployé Claude Fable 5 à l'échelle mondiale et publié des informations détaillées concernant ses classificateurs de sécurité cybersécurité ainsi qu'un cadre proposé pour la gravité des jailbreaks IA. L'entreprise vise à établir une terminologie cohérente pour discuter des risques de jailbreak avec les gouvernements, tout en invitant les retours de la communauté plus large.

media r/LocalLLaMA · il y a 6 h

Dual R9700 : Meilleure formule pour Qwen3.6 27B ?

Un utilisateur examine l'optimisation du modèle Qwen3.6-27B sur une configuration dual AMD Radeon R9700 en utilisant llama.cpp, comparant les performances entre les backends Vulkan et ROCm.

media r/LocalLLaMA · il y a 6 h

Les noyaux WebGPU pour Gemma 4 atteignent 255 tok/s

Xenova a publié des noyaux WebGPU pour Gemma 4, atteignant une performance de 255 tokens par seconde. Cette optimisation permet aux modèles denses de s'exécuter à des vitesses dépassant 100 T/s dans les navigateurs web.

blog Simon Willison · il y a 6 h

Utilisation de DSPy pour évaluer et améliorer les invites système SQL de l'agent Datasette

Simon Willison a utilisé Claude Code avec le modèle Fable 5 pour automatiser l'évaluation et l'optimisation des invites système de l'agent Datasette, en ciblant spécifiquement sa fonctionnalité d'exécution de requêtes SQL en lecture seule. Le processus impliquait l'installation de la dernière version alpha de Datasette et de DSPy afin d'identifier les faiblesses dans la manière dont l'agent gère les informations de schéma.

media r/LocalLLaMA · il y a 6 h

Un pionnier de l'IA chez Nvidia rejette l'AGI et compare OpenAI et Anthropic à AOL

Une figure éminente de Nvidia a déclaré qu'il ne croit pas en l'Intelligence Générale Artificielle (AGI) et soutient que le secteur devrait se concentrer sur des modèles open-source personnalisés pour les entreprises.

media r/LocalLLaMA · il y a 7 h

Benchmarks locaux avec une RTX 3090 - Qwen3.6 27b vs Ornith

Un utilisateur a comparé Qwen3.6 27b, Gemma4 26B A4B QAT et Ornith1.0 35B MoE en utilisant le framework inspect-ai sur une RTX 3090 pour évaluer les performances des modèles locaux. Les tests ont révélé des résultats mitigés sur les benchmarks de connaissances générales, d'ancrage (grounding) et de codage, Qwen3.6 menant généralement aux scores tandis qu'Ornith montrait des forces dans des domaines spécifiques comme DROP.

media r/LocalLLaMA · il y a 7 h

Un utilisateur étend Gemma 4 31B en un modèle 44B avec 88 couches

Un utilisateur de Reddit a étendu le modèle Google Gemma 4 31B, qui possède 60 couches, en une version plus grande de 44 milliards de paramètres contenant 88 couches. Cette modification a été entreprise car Google n'a pas publié de version dense plus grande du modèle pour une utilisation sur Lyzr Architect.

media Hugging Face Forums · il y a 8 h

Saturation des preuves k* : la profondeur de récupération doit être calibrée, pas devinée

Un benchmark pilote sur la profondeur des preuves pour les appels LLM soutient que la calibration doit s'étendre au-delà de l'exactitude factuelle pour inclure la contamination épistémique et les fuites de cadrage. L'étude définit 'k*' comme le point de saturation des preuves où la fiabilité est maximisée, le distinguant des métriques top-k standard ou de densité d'état.

media Hugging Face Forums · il y a 8 h

Test de stress épistémique — Claude Sonnet 5 validé par MarCognity-AI

L'article décrit une validation de Claude Sonnet 5 à l'aide de l'Agent Sceptique de MarCognity-AI pour mettre en évidence l'écart entre la confiance textuelle et la vérifiabilité réelle, qualifié de « fracture épistémique ».

media Hugging Face Forums · il y a 8 h

Le framework Aiywin propose la récurrence en spirale pour le raisonnement IA

L'indépendant Aiywin.ai présente un cadre cognitif qui remplace le traitement linéaire standard par des boucles de récurrence en spirale pour gérer les anomalies et les données incomplètes. Le système étend mathématiquement les paramètres contextuels jusqu'à ce qu'une résolution structurée soit trouvée, au lieu de s'arrêter ou d'halluciner.

media Hugging Face Forums · il y a 8 h

Benchmarking Solo et MoA sur plusieurs tâches

L'article présente des résultats de benchmark comparant des modèles individuels aux configurations Mixture-of-Agents (MoA) sur six tâches : Bug, Tool, Arch, Clinical, DLQ et une moyenne globale. Le harnais d'évaluation utilisé est Hermes Agent v0.18, avec des scores générés par ChatGPT 5.5 et Claude opus 4.8 selon une grille pondérant Correctness, Completeness, Depth, Actionability, Clarity et Trust.

media r/LocalLLaMA · il y a 9 h

Un utilisateur demande des modèles de vision pour détecter le feu ou la fumée

Un utilisateur de Reddit cherche des recommandations pour des modèles de vision capables de détecter le feu ou la fumée, spécifiquement dans le contexte de la surveillance des débris en combustion pendant la saison des feux d'artifice du 4 juillet.