GeneBench-Pro est un benchmark conçu pour évaluer les modèles sur des tâches de raisonnement génomique complexe, présentant dix études de cas détaillées qui mettent en évidence des questions représentatives et du matériel d'appui. Chaque étude de cas fournit le prompt original, les ensembles de données et le contexte nécessaires pour évaluer la performance des modèles sur des défis biologiques spécifiques.

  • Estimer l'utilité clinique d'inhibiteurs synthétiques dirigés contre TXR1 à l'aide de lectures longues et de preuves pharmacogénomiques.
  • Distinguer les dépendances aux ARNlnc spécifiques des transcrits des effets de locus voisins en contrôlant les perturbations locales de l'ADN et la toxicité GC.
  • Réaliser une randomisation mendélienne multivariée en cis pour estimer les effets directs sur la maladie tout en gérant le déséquilibre de liaison et la pléiotropie.
  • Calculer les fréquences porteuses spécifiques à l'ascendance et les risques résiduels à l'aide d'appels conscients des pseudogènes et de données d'haplotype fondateur.
  • Déterminer les effets du génotype sur l'expression des monocytes en corrigeant pour l'ARN ambiant et la contamination technique dans les données de cellules uniques.
  • Évaluer les associations cliniques des sous-haplotypes structuraux imbriqués au sein de locus semblables à des inversions, en séparant l'étalonnage du dosage du soutien à l'expression.
  • Quantifier les différences de force des boucles Hi-C en masquant les contacts à faible capacité de mappage et les artefacts de variantes structurelles.
  • Cartographier les locus de traits quantitatifs dans des populations recombinantes en reconstruisant l'ascendance des fondateurs à partir de données de marqueurs bialléliques.
  • Inférer les proportions d'ascendance spécifiques aux parents et le moment de l'admixture à partir de tractus d'ascendance locale phasés après réparation des artefacts réciproques.
  • Identifier les locus haploïdes sous sélection positive en utilisant des séries temporelles anciennes de fréquences alléliques tout en tenant compte des erreurs de séquençage et de la dérive.

Ces études de cas soulignent la nécessité pour les modèles de gérer des confondants biologiques subtils, tels que le déséquilibre de liaison, l'ARN ambiant et les artefacts de variantes structurelles, afin de produire des conclusions cliniques et de recherche défendables.