GeneBench-Pro est un benchmark de niveau recherche conçu pour mesurer la manière dont les agents IA gèrent l'ambiguïté et prennent des jugements déterminants en biologie computationnelle, élargissant le cadre du GeneBench original. Il comble les limites des évaluations actuelles en testant des capacités d'ordre supérieur telles que la gestion du bruit dans les données, la révision des hypothèses et la détermination du moment où les résultats sont prêts à servir de base à une décision.
- Le benchmark comprend 129 questions générées synthétiquement couvrant la génomique, la biologie quantitative et la médecine translationnelle, garantissant une évaluation déterministe par rapport à des structures causales connues.
- Chaque problème fournit un jeu de données réaliste comportant des problèmes techniques, obligeant les agents à explorer les données, choisir des approches analytiques et engager une expérimentation itérative.
- Des experts externes du domaine ont examiné les problèmes pour évaluer leur réalisme et leur pertinence, soulignant qu'ils sont suffisamment exigeants pour nécessiter une analyse approfondie plutôt qu'une simple application de méthodes toutes faites.
- GPT-5.6 Sol a obtenu un taux de réussite de 28,7 % au niveau de raisonnement le plus élevé, avec une performance augmentant à 31,5 % lorsque le mode Pro est activé.
- Les résultats indiquent que l'augmentation du calcul pendant le test améliore significativement les performances, GPT-5.6 Sol résolvant près de six fois plus de questions que GPT-5.2 tout en utilisant moins de tokens.
Le benchmark met en évidence l'écart croissant entre les modèles de pointe et les systèmes open source en matière de raisonnement scientifique de haut niveau sous incertitude, suggérant que l'assistance par IA pourrait accélérer le rythme et améliorer la reproductibilité de la recherche biologique.