Stop Thinking, Just Do!

Sungsoo Kim's Blog

Multimodal language models for mapping the genotype-phenotype relationship

tagsTags

1 May 2024


Article Source


Multimodal language models for mapping the genotype-phenotype relationship

  • Speakers: Farhan Khodaee

Abstract

How complex phenotypes emerge from intricate gene expression patterns is a fundamental question in biology. Quantitative characterization of this relationship, however, is challenging due to the vast combinatorial possibilities and dynamic interplay between genotype and phenotype landscapes. Integrating high-content genotyping approaches such as single-cell RNA sequencing and advanced learning methods such as language models offers an opportunity for dissecting this complex relationship. Here, I present an integrated genetics framework to analyze and interpret the high-dimensional landscape of genotypes and their associated phenotypes simultaneously. We applied this approach to develop a multimodal foundation model to explore the genotype-phenotype relationship manifold for human transcriptomics at the cellular level. The results show a refined resolution of cellular heterogeneity, enhanced precision in phenotype annotating, and uncovered potential cross-tissue biomarkers that are undetectable through conventional gene expression analysis alone. Utilizing contextualized embeddings, we investigated gene polyfunctionality which illustrates the multifaceted roles that genes play in different biological processes, and show that for VWF gene in endothelial cells. Overall, this study aims to advance our understanding of the dynamic interplay between gene expression and phenotypic manifestation and demonstrates the potential of integrated genetics in uncovering new dimensions of cellular function and complexity.

생물학에서 가장 근본적인 질문 중 하나는 복잡한 유전자 발현 패턴으로부터 어떻게 복합적인 표현형이 나타나는가 하는 것입니다. 하지만 유전형과 표현형 지형 사이의 광범위한 조합 가능성과 역동적인 상호 작용으로 인해 이 관계를 정량적으로 규명하는 것은 어려운 과제입니다.

이러한 복합적인 관계를 분석하기 위해 단세포 RNA 시퀀싱과 같은 고함량 게놈 타입 분석 기술과 언어 모델과 같은 첨단 학습 방법을 통합하는 것이 기회를 제공합니다. 이 연구에서는 유전형과 관련된 표현형을 동시에 분석하고 해석하기 위한 통합 유전학 프레임워크를 제시합니다. 우리는 이 접근 방식을 적용하여 세포 수준에서 인간 전사체 유전형-표현형 관계 다양체를 탐색하는 다중 모달 기초 모델을 개발했습니다.

연구 결과는 세포 이질성의 세분화된 해상도, 표현형 주석의 향상된 정밀도, 그리고 기존의 유전자 발현 분석만으로는 검출할 수 없는 잠재적인 교차 조직 바이오마커 발견을 보여줍니다. 맥락화된 임베딩을 활용하여 우리는 유전자 다기능성을 조사했습니다. 이는 유전자가 다른 생물학적 과정에서 다면적인 역할을 하는 것을 보여주며, 이 연구는 특히 내피세포에서 VWF 유전자의 경우를 예시로 들 수 있습니다.

이 연구는 전체적으로 유전자 발현과 표현형 발현 사이의 역동적인 상호 작용에 대한 이해를 발전시키는 것을 목표로 하며, 통합 유전학의 잠재력을 통해 세포 기능 및 복합성의 새로운 차원을 밝히는 것을 시연합니다.


comments powered by Disqus