Tous les articles — korshunov.ai

Tous les articles Page 1 / 18

L'architecture de contexte générationnel : résoudre la pourriture du contexte des LLM

L'architecture de contexte générationnel (GCA) propose de traiter la fenêtre de contexte d'un LLM comme une durée de vie finie plutôt que comme un stockage infini afin de résoudre la « pourriture du contexte » et la dilution de l'attention dans les systèmes multi-agents. En imposant une mortalité artificielle, les agents sont terminés avant que leurs performances ne se dégradent, transmettant leur état aux nouvelles générations via un coffre-fort Markdown en fichier plat.

media Hugging Face Forums · il y a 3 j

Guide bilingue open-source sur les mécaniques des Transformers publié

Un guide open-source et bilingue (anglais/espagnol) détaillant le fonctionnement interne des Transformers a été publié. La ressource couvre les mathématiques exactes et les mécanismes derrière des concepts tels que l'effondrement de l'attention et la compression du KV-cache.

lab OpenAI News · il y a 4 j

HP Inc. lance un partenariat stratégique avec OpenAI sur la technologie Frontier

HP Inc. intensifie son partenariat stratégique avec OpenAI à la suite de pilotes réussis, déployant l'IA dans les expériences client, la productivité des employés et le développement logiciel. L'entreprise utilise la plateforme OpenAI Frontier comme modèle d'exploitation unifié pour gouverner le contexte, les autorisations et l'évaluation alors qu'elle passe de cas d'utilisation expérimentaux à une production à l'échelle de l'entreprise.

github llama.cpp · il y a 4 j

La version b9837 de llama.cpp ajoute le drapeau --reasoning-preserve et de nouveaux binaires

Le projet llama.cpp a publié la version b9837, qui introduit un nouveau drapeau `--reasoning-preserve` pour le modèle de chat Jinja afin de conserver les jetons de raisonnement. Cette mise à jour inclut également des messages d'aide corrigés et fournit des binaires préconstruits pour macOS, Linux, Windows, Android et openEuler sur divers backends matériels.

media Hugging Face Forums · il y a 4 j

HoLo-ToLk : Des modèles de parole sans tokenizers sur une base HSL à 0 paramètre

L'auteur présente HoLo-ToLk, un projet de recherche qui construit des modèles de parole vers texte (STT) et de texte vers parole (TTS) en utilisant la base d'octets HSL à zéro paramètre sans tokenizers ni embeddings d'apprentissage. Le travail démontre que les octets HSL bruts peuvent servir de signal viable pour le traitement audio lorsqu'ils sont combinés avec des modifications architecturales spécifiques.

github llama.cpp · il y a 4 j

llama.cpp b9835 avec corrections de l'arrêt de l'interface utilisateur et du saut de raisonnement

Le projet llama.cpp a publié la version b9835, qui inclut une correction pour les fonctionnalités d'arrêt et de saut de raisonnement en mode mono-modèle. Cette mise à jour résout des problèmes spécifiques au sein de l'interface utilisateur afin d'améliorer le contrôle pendant l'inférence du modèle.

media Hugging Face Forums · il y a 4 j

Enquête hypothétique sur l'apprentissage du code binaire par l'IA

Un utilisateur de forum pose une question spéculative concernant le fait d'entraîner des réseaux neuronaux ou des systèmes d'IA à comprendre le code binaire, ce qui pourrait-il améliorer significativement leurs capacités globales, en particulier dans les tâches de codage.

media Hugging Face Forums · il y a 4 j

Concept : Échanger des données pour entraîner des modèles d'IA

Un utilisateur propose un concept de site web où les individus échangent des données contre des données pour entraîner des modèles d'IA, éliminant ainsi le besoin de transactions monétaires. Le système fonctionne sur une économie basée sur les crédits où les utilisateurs commencent avec un montant fixe de crédits et publient des primes pour des besoins spécifiques en données.

github llama.cpp · il y a 4 j

llama.cpp b9833 release : analyseur MiniCPM5 et binaires multi-plateformes

Le projet llama.cpp a publié la version b9833, introduisant un analyseur dédié pour le modèle MiniCPM5 ainsi que diverses corrections de bugs et refactorisations. Cette mise à jour inclut la prise en charge de l'analyse des appels d'outils, la simplification de la grammaire et la correction du comportement de l'API Jinja pour assurer la compatibilité avec les normes Jinja2.

github llama.cpp · il y a 4 j

La version b9832 de llama.cpp ajoute le drapeau de débogage --dump-prog

Le projet llama.cpp a publié la version b9832, introduisant une nouvelle option en ligne de commande `--dump-prog` pour le moteur de templates Jinja afin d'aider au débogage. Cette mise à jour inclut également des binaires précompilés pour macOS, Linux, Android, Windows et openEuler sur diverses architectures CPU et GPU.

github llama.cpp · il y a 4 j

La version b9831 de llama.cpp ajoute le support DFlash et de nouveaux binaires

La version b9831 de llama.cpp introduit le support de DFlash v2, incluant l'attention à fenêtre glissante par type de couche, ainsi qu'un ensemble complet de binaires préconstruits pour plusieurs plateformes.

github llama.cpp · il y a 4 j

La version b9830 de llama.cpp ajoute le drapeau --offline et corrige un bug mémoire

La version b9830 de llama.cpp introduit la possibilité d'utiliser le drapeau --offline avec la commande llama download, permettant aux scripts de vérifier les modèles en cache sans accès réseau. Cette mise à jour résout également une vulnérabilité use-after-free latente dans le callback on_done de la tâche URL où first_path était incorrectement capturé par référence.

media Hugging Face Forums · il y a 4 j

Un utilisateur demande la récupération du compte zhoucantd

Un utilisateur sur les forums Hugging Face demande s'il est possible de récupérer son compte, en identifiant spécifiquement le nom d'utilisateur "zhoucantd". Le message indique un fil de discussion impliquant deux participants concernant cette demande.

media Hugging Face Forums · il y a 4 j

UCTF : Un format d'entraînement compressé universel pour l'IA multilingue

Un nouveau concept appelé UCTF (Universal Compressed Training Format) propose une couche de médiation pour adresser la redondance sémantique dans l'entraînement des LLM multilingues en compressant diverses langues dans un format de token unifié et indépendant de la langue.

media Hugging Face Forums · il y a 4 j

Création d'un widget de chat web avec Gradio Partie IV

Un utilisateur signale que son widget de chatbot IA précédemment fonctionnel sur son site web a cessé de fonctionner en raison d'une erreur de politique CORS après une récente mise à jour de Gradio. L'erreur indique que l'en-tête 'Access-Control-Allow-Credentials' dans la réponse est vide, ce qui entre en conflit avec le mode des identifiants de la requête du client.

media Hugging Face Forums · il y a 4 j

La langue comme vecteur d'intelligence : Au-delà de la prédiction de tokens

Cet article soutient que les grands modèles de langage tirent leur intelligence apparente des relations géométriques profondes et des états cachés au sein du langage lui-même, plutôt que d'un calcul mécanique indépendant ou d'une simple prédiction de tokens.

github llama.cpp · il y a 4 j

llama.cpp b9829 Release : journaux réduits et binaires multi-plateformes

Le projet llama.cpp a publié la version b9829, qui inclut une réduction de la sortie des journaux dans le serveur, les composants communs et les modules de décodage spéculatif. Cette mise à jour standardise également les conventions de nommage en remplaçant CMN_ par COM_.

media Hugging Face Forums · il y a 4 j

Un utilisateur cherche des collaborateurs pour un nouveau projet de jeu de données Sudoku ML

Un utilisateur sur les forums Hugging Face cherche des collaborateurs pour construire un projet d'apprentissage automatique et d'apprentissage profond axé sur les Sudokus. L'auteur a commencé à créer une base de données à partir de zéro et vise à établir une organisation indépendante pour cette cause.

github llama.cpp · il y a 5 j

llama.cpp b9828 release : améliorations de l'attention flash OpenCL et nouveaux binaires

La version b9828 de llama.cpp introduit des améliorations significatives d'OpenCL, en particulier une refonte des noyaux Flash Attention pour les précisions f16 et f32. Cette mise à jour inclut de nouveaux noyaux de prépassage de préfixe ainsi que la prise en charge des formats de quantification q4_0 et q8_0.

media Hugging Face Forums · il y a 5 j

Expérience avec l'ablation de langues différentes ?

Un utilisateur demande des retours d'expérience concernant l'ablation du mandarin, du russe et de l'arabe depuis un modèle afin de créer une version principalement basée sur le latin. L'objectif est de libérer de l'espace pour un entraînement supplémentaire ou un élagage sûr dans des contextes où l'anglais n'a aucune activation.