Genebench-Pro 내부: 복잡한 유전체 추론의 10가지 사례 연구

GeneBench-Pro는 복잡한 유전체 추론 작업을 위해 모델을 평가하도록 설계된 벤치마크로, 대표적인 질문과 지원 자료를 보여주는 10개의 상세한 사례 연구를 특징으로 합니다. 각 사례 연구는 특정 생물학적 과제에 대한 모델 성능을 평가하는 데 필요한 원래 프롬프트, 데이터셋 및 컨텍스트를 제공합니다.

긴 리드(long-read) 및 약리유전체 증거를 사용하여 합성 TXR1 표적 억제제의 임상적 유용성을 추정합니다.
국소 DNA 변형 및 GC 독성을 통제하여 전사본 특이적 lncRNA 의존성을 인접 유좌 효과와 구분합니다.
연관 불평형과 다효성을 처리하면서 직접적인 질병 효과를 추정하기 위해 cis 다변량 멘델 무작위화(Mendelian randomization)를 수행합니다.
가유전자 인식 호출(pseudogene-aware calls) 및 창시자 하플로타입 데이터를 사용하여 인종별 보인자 빈도와 잔여 위험을 계산합니다.
단일 세포 데이터의 환경 RNA 및 기술적 오염을 보정하여 단핵구 발현에 대한 유전형 효과를 결정합니다.
역전 유사 유좌 내의 중첩 구조 부분하플로타입의 임상적 연관성을 평가하며, 용량 보정과 발현 지원을 분리합니다.
낮은 매핑 가능성 접촉과 구조적 변이 아티팩트를 마스킹하여 Hi-C 루프 강도 차이를 정량화합니다.
이형접합 표지자 데이터에서 창시자 조상을 재구성하여 재조합 집단에서 정량적 형질 유좌를 매핑합니다.
상호 아티팩트를 수정한 후 위상 국소 조상 트렉트로부터 부모 특이적 조상 비율과 혼혈 시기를 추론합니다.
시퀀싱 오류와 드리프트(drift)를 고려하면서 고대 대립유전자 빈도 시간 시리즈를 사용하여 양성 선택 하의 단수체 유좌를 식별합니다.

이러한 사례 연구는 연관 불평형, 환경 RNA, 구조적 변이 아티팩트와 같은 미묘한 생물학적 교란 요인을 처리하여 방어 가능한 임상 및 연구 결론을 도출하기 위해 모델이 이러한 요인을 다룰 필요성을 강조합니다.