Tous les articles
lab Microsoft Research Blog · il y a 1 h En direct

SkillOpt : Les compétences des agents comme paramètres entraînables

Microsoft Research présente SkillOpt, une méthode qui traite les fichiers de compétences des agents comme des paramètres entraînables en dehors d'un modèle cible figé, transformant l'édition manuelle des compétences en un processus d'optimisation contrôlé. Cette approche améliore la fiabilité et la cohérence des agents sans mettre à jour les poids du modèle sous-jacent.

lab Anthropic News · il y a 4 h

Claude Science, un poste de travail IA pour les scientifiques, est maintenant disponible

Anthropic a lancé Claude Science en bêta, un poste de travail IA conçu pour intégrer des outils scientifiques fragmentés dans un seul environnement de recherche. La plateforme vise à accélérer la découverte en fournissant des artefacts auditables, une mise à l'échelle flexible du calcul et des agents spécialisés pour des domaines tels que la génomique et la biologie structurale.

lab Anthropic News · il y a 5 h

Présentation de Claude Sonnet 5

Anthropic a publié Claude Sonnet 5, un nouveau modèle d'IA agentique conçu pour effectuer des tâches complexes de planification, d'utilisation d'outils et de codage autonome à un coût inférieur à celui des modèles précédents de classe Opus. Cette mise à jour réduit l'écart de performance avec Opus 4.8 tout en offrant des améliorations significatives en matière de raisonnement, de sécurité et d'exécution par rapport à son prédécesseur, Sonnet 4.6.

lab OpenAI News · il y a 5 h

Dans GeneBench-Pro : 10 études de cas de raisonnement génomique complexe

GeneBench-Pro est un benchmark conçu pour évaluer les modèles sur des tâches de raisonnement génomique complexe, présentant dix études de cas détaillées qui mettent en évidence des questions représentatives et du matériel d'appui. Chaque étude de cas fournit le prompt original, les ensembles de données et le contexte nécessaires pour évaluer la performance des modèles sur des défis biologiques spécifiques.

lab OpenAI News · il y a 5 h

Présentation de GeneBench-Pro

GeneBench-Pro est un benchmark de niveau recherche conçu pour mesurer la manière dont les agents IA gèrent l'ambiguïté et prennent des jugements déterminants en biologie computationnelle, élargissant le cadre du GeneBench original. Il comble les limites des évaluations actuelles en testant des capacités d'ordre supérieur telles que la gestion du bruit dans les données, la révision des hypothèses et la détermination du moment où les résultats sont prêts à servir de base à une décision.

lab Meta AI / FAIR Blog · il y a 1 j

Brain2Qwerty v2 atteint 61 % de précision lexicale dans le décodage non invasif du cerveau vers texte

Les chercheurs ont publié Brain2Qwerty v2, un pipeline d'IA non invasif qui décode des phrases en temps réel à partir d'enregistrements de magnétoencéphalographie (MEG) sans implants chirurgicaux. Le système atteint une précision lexicale globale de 61 % et jusqu'à 78 % pour les meilleurs participants, surpassant significativement les méthodes non invasives précédentes.

lab OpenAI News · il y a 2 j

HP Inc. lance un partenariat stratégique avec OpenAI sur la technologie Frontier

HP Inc. intensifie son partenariat stratégique avec OpenAI à la suite de pilotes réussis, déployant l'IA dans les expériences client, la productivité des employés et le développement logiciel. L'entreprise utilise la plateforme OpenAI Frontier comme modèle d'exploitation unifié pour gouverner le contexte, les autorisations et l'évaluation alors qu'elle passe de cas d'utilisation expérimentaux à une production à l'échelle de l'entreprise.

lab OpenAI News · il y a 6 j

La recherche d'OpenAI montre que les agents IA transforment le travail

Un nouveau document de recherche d'OpenAI démontre comment les agents d'intelligence artificielle changent fondamentalement la nature du travail. L'étude met en évidence la capacité de ces agents à exécuter des tâches plus longues et plus complexes qu'auparavant. Cette avancée technologique est créditée d'avoir élargi la productivité dans une grande variété de rôles professionnels. Les résultats suggèrent un changement significatif dans la façon dont le travail est organisé et accompli grâce à l'automatisation. En gérant des flux de travail complexes, les agents IA permettent aux utilisateurs d'atteindre une plus grande efficacité. Le document sert de preuve de l'impact croissant des systèmes autonomes sur l'emploi moderne.

lab Mistral AI News · il y a 6 j

Nouveaux contrôles de connecteur pour la sécurité et l'accès des entreprises

Mistral Studio propose désormais des contrôles d'administration enrichis pour gérer l'accès aux connecteurs par espace de travail et par outil, permettant des permissions fines. Les fonctionnalités incluent des clés API avec des étendues, des connecteurs multi-comptes et un nouveau débogueur de connecteurs pour l'analyse des causes racines, le tout soutenant une intégration sécurisée et auditable avec les systèmes d'entreprise.

lab Anthropic News · il y a 7 j

Présentation de Claude Tag pour les équipes Slack

Claude Tag permet aux équipes de taguer @Claude dans Slack pour déléguer des tâches, avec un accès à des canaux sélectionnés, des outils et des bases de code. Il apprend du contexte du canal, fonctionne de manière asynchrone et prend l'initiative en mettant proactivement à jour les utilisateurs sur les informations pertinentes. Aujourd'hui, 65 % du code de l'équipe produit d'Anthropic est créé par Claude Tag interne, et il est désormais disponible en bêta pour les clients Claude Enterprise et Team.

lab Mistral AI News · il y a 7 j

Mistral publie OCR 4 avec support multilingue et sortie structurée

Mistral OCR 4 introduit des boîtes englobantes, la classification de blocs et des scores de confiance en ligne pour 170 langues réparties en 10 groupes linguistiques. Il surpasse les principaux systèmes OCR dans les évaluations de préférence humaine avec un taux de victoire de 72 % et obtient le meilleur score sur OlmOCRBench (85,20), tout en offrant un déploiement auto-hébergé dans un seul conteneur et en prenant en charge des cas d'utilisation enterprise comme RAG et l'ingestion de documents.