Source · OpenAI News
lab OpenAI News · il y a 5 h

Présentation de GeneBench-Pro

GeneBench-Pro est un benchmark de niveau recherche conçu pour mesurer la manière dont les agents IA gèrent l'ambiguïté et prennent des jugements déterminants en biologie computationnelle, élargissant le cadre du GeneBench original. Il comble les limites des évaluations actuelles en testant des capacités d'ordre supérieur telles que la gestion du bruit dans les données, la révision des hypothèses et la détermination du moment où les résultats sont prêts à servir de base à une décision.

lab OpenAI News · il y a 2 j

HP Inc. lance un partenariat stratégique avec OpenAI sur la technologie Frontier

HP Inc. intensifie son partenariat stratégique avec OpenAI à la suite de pilotes réussis, déployant l'IA dans les expériences client, la productivité des employés et le développement logiciel. L'entreprise utilise la plateforme OpenAI Frontier comme modèle d'exploitation unifié pour gouverner le contexte, les autorisations et l'évaluation alors qu'elle passe de cas d'utilisation expérimentaux à une production à l'échelle de l'entreprise.

lab OpenAI News · il y a 6 j

La recherche d'OpenAI montre que les agents IA transforment le travail

Un nouveau document de recherche d'OpenAI démontre comment les agents d'intelligence artificielle changent fondamentalement la nature du travail. L'étude met en évidence la capacité de ces agents à exécuter des tâches plus longues et plus complexes qu'auparavant. Cette avancée technologique est créditée d'avoir élargi la productivité dans une grande variété de rôles professionnels. Les résultats suggèrent un changement significatif dans la façon dont le travail est organisé et accompli grâce à l'automatisation. En gérant des flux de travail complexes, les agents IA permettent aux utilisateurs d'atteindre une plus grande efficacité. Le document sert de preuve de l'impact croissant des systèmes autonomes sur l'emploi moderne.

lab OpenAI News · il y a 5 h

Dans GeneBench-Pro : 10 études de cas de raisonnement génomique complexe

GeneBench-Pro est un benchmark conçu pour évaluer les modèles sur des tâches de raisonnement génomique complexe, présentant dix études de cas détaillées qui mettent en évidence des questions représentatives et du matériel d'appui. Chaque étude de cas fournit le prompt original, les ensembles de données et le contexte nécessaires pour évaluer la performance des modèles sur des défis biologiques spécifiques.