Tous les articles
media Hugging Face Forums · il y a 2 j

Trajlens : un validateur pour LeRobotDataset, 100 datasets Hub audités

L'auteur présente Trajlens, un linter open-source pour la catégorie LeRobotDataset sur Hugging Face Hub, et rapporte les résultats de l'audit de 100 datasets publics aléatoires tagués avec 'lerobot'. L'audit a révélé que seuls 19 datasets ont passé la validation, tandis que 13 ont échoué en raison de bugs spécifiques en amont et que 47 ont rencontré des erreurs de chargement ou des timeouts.

media Hugging Face Forums · il y a 2 j

Proposition d'architecture : Le Réseau Adversaire Épistémologique (EAN) pour l'IA open-source

Une demande de fonctionnalité propose le Réseau Adversaire Épistémologique (EAN), une architecture conçue pour transformer l'IA d'un système reflétant le consensus institutionnel en un moteur de vérification décentralisé et multi-perspectives. Cette approche vise à éliminer les manœuvres de pouvoir politique et corporatif en supprimant tout modèle de « source de vérité » unique.

media Hugging Face Forums · il y a 2 j

AgentSeal : Un audit de disponibilité des corpus pour SWE-bench Pro

L'outil d'audit AgentSeal v5 a évalué la disponibilité publique des artefacts dans le benchmark SWE-bench Pro afin d'évaluer les risques potentiels de contamination. L'étude a révélé que, bien que 12 instances aient montré une chevauchement de contenu déterministe et que 76 dépôts soient des membres probables du corpus, la plupart des preuves consistaient en des répliques publiques dont la date est inconnue plutôt qu'une contamination avérée antérieure à la coupure.

lab Microsoft Research Blog · il y a 2 j

Memora : Une représentation de mémoire harmonique équilibrant abstraction et spécificité

Microsoft Research présente Memora, un framework de mémoire agentique évolutif conçu pour équilibrer abstraction et spécificité pour les tâches d'IA à long terme. Le système découple le contenu riche de la mémoire des structures de récupération légères, établissant de nouveaux résultats state-of-the-art sur les benchmarks tout en utilisant jusqu'à 98 % moins de tokens de contexte.